論文の概要: Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra
- arxiv url: http://arxiv.org/abs/2605.16259v1
- Date: Tue, 10 Feb 2026 20:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.829793
- Title: Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra
- Title(参考訳): Apple M3 Ultraにおけるリアルタイム拡散モデル推論の体系的最適化
- Authors: Yoichi Ochiai,
- Abstract要約: 我々はApple M3 Ultraをターゲットとした10段階の最適化実験を行った。
リアルタイムカメラimg2img変換を22.7FPSで512x512解像度で達成した。
- 参考スコア(独自算出の注目度): 4.457579406760105
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While real-time image generation using diffusion models has advanced rapidly on NVIDIA GPUs, systematic optimization research on non-CUDA platforms such as Apple Silicon remains extremely limited. In this study, we conducted comprehensive optimization experiments across 10 phases targeting the Apple M3 Ultra (60-core GPU, 512 GB unified memory) with the goal of achieving real-time camera img2img transformation. We explored a wide range of techniques including CoreML conversion, quantization, Token Merging, Neural Engine utilization, compact model exploration, frame interpolation, kNN search-based synthesis, pix2pix-turbo, optical flow frame skipping, and knowledge distillation, quantitatively evaluating the effectiveness of each approach. Ultimately, by combining CoreML conversion of the distillation-specialized model SDXS-512 with a 3-thread camera pipeline, we achieved real-time camera img2img transformation at 22.7 FPS at 512x512 resolution. The primary contribution of this work is the systematic demonstration that optimization insights established for CUDA are not necessarily effective on Apple Silicon's unified memory architecture. We reveal an optimization landscape fundamentally different from that of NVIDIA GPUs -- including the absence of speedup from quantization, the ineffectiveness of parallel inference, and the unsuitability of the Neural Engine for large-scale models -- and provide practical guidelines for diffusion model inference on Apple Silicon.
- Abstract(参考訳): 拡散モデルを用いたリアルタイム画像生成はNVIDIA GPU上で急速に進歩しているが、Apple Siliconのような非CUDAプラットフォームの体系的な最適化研究は依然として極めて限られている。
本研究では,リアルタイムカメラimg2img変換の実現を目的として,Apple M3 Ultra(60コアGPU,512GBメモリ)を対象とする10段階にわたる総合的な最適化実験を行った。
我々は,CoreML変換,量子化,Token Merging,Neural Engine利用,コンパクトモデル探索,フレーム補間,kNN探索に基づく合成,ピクセル2ピクセルターボ,光フローフレームスキップ,知識蒸留など,幅広い手法を探索し,それぞれのアプローチの有効性を定量的に評価した。
最終的に、蒸留特化モデルSDXS-512のCoreML変換を3スレッドカメラパイプラインと組み合わせることで、512x512解像度で22.7FPSでリアルタイムカメラimg2img変換を実現した。
この研究の主な貢献は、CUDAで確立された最適化の洞察がApple Siliconの統一メモリアーキテクチャに必ずしも有効ではないというシステマティックな実証である。
我々は、量子化によるスピードアップの欠如、並列推論の非効率、大規模モデルに対するNeural Engineの不適合など、NVIDIA GPUと根本的に異なる最適化の展望を明らかにし、Apple Silicon上での拡散モデル推論の実践的なガイドラインを提供する。
関連論文リスト
- $D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation [72.9912717963138]
リモートセンシング画像からのリアルタイムで高忠実な単眼深度推定は、多くのアプリケーションにとって不可欠である。
視覚変換器(ViT)のバックボーンを高密度な予測に使用するのは速いが、知覚品質は低いことが多い。
リモートセンシング単眼深度推定のための深度詳細拡散法(D3$-RSMDE)を提案する。
D3$-RSMDEは、Learninged Perceptual Image Patch similarity (LPIPS)の知覚距離を11.85%削減する。
論文 参考訳(メタデータ) (2026-03-17T10:50:36Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文 参考訳(メタデータ) (2024-05-30T17:54:35Z) - ExtremeMETA: High-speed Lightweight Image Segmentation Model by Remodeling Multi-channel Metamaterial Imagers [8.976310466890805]
本稿では,ExtremeC3Netに基づくカーネル軽量セグメンテーションモデルExtremeMETAを提案する。
その結果、最適化された効率的な設計により、mIoUでのセグメンテーション性能は92.45から95.97に向上し、計算FLOPは461.07 MMacから166.03 MMacに低下した。
論文 参考訳(メタデータ) (2024-05-27T18:03:37Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z) - MicroISP: Processing 32MP Photos on Mobile Devices with Deep Learning [114.66037224769005]
エッジデバイスに特化して設計された新しいMicroISPモデルを提案する。
提案したソリューションは,モバイルMLライブラリを使用して,最新のスマートフォン上で最大32MPの写真を処理できる。
モデルのアーキテクチャは柔軟で、計算能力の異なるデバイスに複雑性を調整することができる。
論文 参考訳(メタデータ) (2022-11-08T17:40:50Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。