論文の概要: CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers
- arxiv url: http://arxiv.org/abs/2507.15260v1
- Date: Mon, 21 Jul 2025 05:48:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.272662
- Title: CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers
- Title(参考訳): CHORDS:マルチコア階層ODEソルバを用いた拡散サンプリング加速器
- Authors: Jiaqi Han, Haotian Ye, Puheng Li, Minkai Xu, James Zou, Stefano Ermon,
- Abstract要約: 拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
- 参考スコア(独自算出の注目度): 72.23291099555459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generative models have become dominant generators of high-fidelity images and videos but remain limited by their computationally expensive inference procedures. Existing acceleration techniques either require extensive model retraining or compromise significantly on sample quality. This paper explores a general, training-free, and model-agnostic acceleration strategy via multi-core parallelism. Our framework views multi-core diffusion sampling as an ODE solver pipeline, where slower yet accurate solvers progressively rectify faster solvers through a theoretically justified inter-core communication mechanism. This motivates our multi-core training-free diffusion sampling accelerator, CHORDS, which is compatible with various diffusion samplers, model architectures, and modalities. Through extensive experiments, CHORDS significantly accelerates sampling across diverse large-scale image and video diffusion models, yielding up to 2.1x speedup with four cores, improving by 50% over baselines, and 2.9x speedup with eight cores, all without quality degradation. This advancement enables CHORDS to establish a solid foundation for real-time, high-fidelity diffusion generation.
- Abstract(参考訳): 拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
既存の加速技術は、広範囲なモデル再訓練を必要とするか、サンプルの品質を著しく損なうかのいずれかである。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
我々のフレームワークはマルチコア拡散サンプリングをODEソルバパイプラインとみなし、理論上は正当化されたコア間通信機構によってより高速なソルバを徐々に修正する。
これは、多コアのトレーニングフリー拡散サンプリングアクセラレータCHORDSをモチベーションとし、様々な拡散サンプリング、モデルアーキテクチャ、モダリティと互換性がある。
大規模な実験を通じて、CHORDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを達成し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
この進歩により、CHORDSはリアルタイムで高忠実な拡散生成のための確かな基盤を確立することができる。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - SQ-DM: Accelerating Diffusion Models with Aggressive Quantization and Temporal Sparsity [4.6126713437495495]
本稿では,混合精度密度スパースアーキテクチャ,チャネルラストアドレスマッピング,時間ステップ対応空間検出器を備えた新しい拡散モデル加速器を提案する。
我々の加速器は従来の高密度加速器に比べて6.91倍のスピードアップと51.5%のエネルギー削減を実現している。
論文 参考訳(メタデータ) (2025-01-26T08:34:26Z) - PQD: Post-training Quantization for Efficient Diffusion Models [4.809939957401427]
拡散モデル(PQD)のための新しい学習後量子化法を提案する。
提案手法は,完全精度拡散モデルを直接8ビット,4ビットモデルに量子化することができる。
論文 参考訳(メタデータ) (2024-12-30T19:55:59Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule [50.260693393896716]
拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。
近年,より高速な生成プロセスの自動探索技術が採用されている。
拡散モデルの高速化を目的とした新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
論文 参考訳(メタデータ) (2024-09-26T06:28:05Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Boosting Latent Diffusion with Flow Matching [22.68317748373856]
フローマッチングは、高速なトレーニングと推論の相補的な特徴から魅力的なアプローチであるが、多種多様な合成は少ない。
凍結拡散モデルと畳み込みデコーダのフローマッチングを導入することにより,高分解能画像合成が可能となることを示す。
最先端の高解像度画像合成は、最小の計算コストで10242ドルのピクセルで達成される。
論文 参考訳(メタデータ) (2023-12-12T15:30:24Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。