論文の概要: Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration
- arxiv url: http://arxiv.org/abs/2603.01623v1
- Date: Mon, 02 Mar 2026 08:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.779747
- Title: Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration
- Title(参考訳): 拡散サンプリング高速化のための適応スペクトル特徴予測
- Authors: Jiaqi Han, Juntong Shi, Puheng Li, Haotian Ye, Qiushan Guo, Stefano Ermon,
- Abstract要約: スペクトル拡散特徴予測器(Spectrum)を提案する。
我々はFLUX.1で4.79$times$スピードアップ、Wan2.1-14Bで4.67$times$スピードアップを達成する。
- 参考スコア(独自算出の注目度): 58.19554276924402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have become the dominant tool for high-fidelity image and video generation, yet are critically bottlenecked by their inference speed due to the numerous iterative passes of Diffusion Transformers. To reduce the exhaustive compute, recent works resort to the feature caching and reusing scheme that skips network evaluations at selected diffusion steps by using cached features in previous steps. However, their preliminary design solely relies on local approximation, causing errors to grow rapidly with large skips and leading to degraded sample quality at high speedups. In this work, we propose spectral diffusion feature forecaster (Spectrum), a training-free approach that enables global, long-range feature reuse with tightly controlled error. In particular, we view the latent features of the denoiser as functions over time and approximate them with Chebyshev polynomials. Specifically, we fit the coefficient for each basis via ridge regression, which is then leveraged to forecast features at multiple future diffusion steps. We theoretically reveal that our approach admits more favorable long-horizon behavior and yields an error bound that does not compound with the step size. Extensive experiments on various state-of-the-art image and video diffusion models consistently verify the superiority of our approach. Notably, we achieve up to 4.79$\times$ speedup on FLUX.1 and 4.67$\times$ speedup on Wan2.1-14B, while maintaining much higher sample quality compared with the baselines.
- Abstract(参考訳): 拡散モデルは高忠実度画像と映像生成において支配的なツールとなっているが、拡散変換器の繰り返しパスが多数あるため、推論速度によって著しくボトルネックとなっている。
網羅的な計算量を削減するため、最近の作業では、前ステップでキャッシュされた特徴を用いて、選択した拡散ステップでのネットワーク評価をスキップする機能キャッシングと再利用方式を採用している。
しかし、それらの予備設計は局所近似にのみ依存しており、大きなスキップでエラーが急速に増大し、高速でサンプル品質が劣化する。
本研究では, スペクトル拡散特徴予測器 (Spectrum) を提案する。
特に、デノイザの潜在的特徴を時間の経過とともに関数とみなし、チェビシェフ多項式と近似する。
具体的には、リッジ回帰を用いて各基底に係数を適合させ、複数の将来の拡散ステップで特徴を予測する。
理論的には,提案手法はより有利な長水平挙動を許容し,ステップサイズと混同しない誤差境界を与える。
様々な最先端画像およびビデオ拡散モデルに関する大規模な実験は、我々のアプローチの優位性を一貫して検証している。
特に、FLUX.1の4.79$\times$スピードアップとWan2.1-14Bの4.67$\times$スピードアップを実現し、ベースラインよりもはるかに高いサンプル品質を維持した。
関連論文リスト
- Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers [10.751183015853863]
拡散変換器(DiT)は高忠実度画像とビデオ生成のバックボーンとして広く採用されている。
線形多段階問題として特徴予測を定式化する,トレーニング不要なアクセラレーションフレームワークである textbfPrediT を提案する。
提案手法は,DiTベースの画像およびビデオ生成モデル間で最大5.54タイムのレイテンシ低減を実現し,品質劣化を生じさせる。
論文 参考訳(メタデータ) (2026-02-20T09:33:59Z) - Forecast the Principal, Stabilize the Residual: Subspace-Aware Feature Caching for Efficient Diffusion Transformers [9.698781486878206]
Diffusion Transformer (DiT) モデルは画像およびビデオ生成において前例のない品質を達成したが、反復サンプリングプロセスは計算的に禁止されている。
Singular Value Decomposition (SVD)を介して拡散機能を分解するサブスペース対応キャッシュフレームワークであるSVD-Cacheを提案する。
私たちのコードは補足的な素材で、Githubでリリースされます。
論文 参考訳(メタデータ) (2026-01-12T10:30:12Z) - Forecast then Calibrate: Feature Caching as ODE for Efficient Diffusion Transformers [19.107716099809707]
拡散変換器(DiT)は高忠実度画像とビデオ生成において例外的な性能を示した。
現在の方法は、しばしば高い加速比で生成品質を維持するのに苦労する。
本稿では,機能キャッシングを機能-ODE問題として扱うFoCaを提案する。
論文 参考訳(メタデータ) (2025-08-22T08:34:03Z) - CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - Constrained Diffusion with Trust Sampling [11.354281911272864]
我々は、最適化の観点から、トレーニングなし損失誘導拡散を再考する。
トラストサンプリングは、無条件拡散モデルに従って効果的にバランスをとり、損失誘導に固執する。
複雑なタスクや画像の領域や3Dモーション生成の領域で広範囲にわたる実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-17T01:34:57Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep Tuner [112.99126045081046]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小コストで特定の区間に対してより正確な積分方向を求めるのに役立つtextbftimestep tunerを提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。
最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。
本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。
我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文 参考訳(メタデータ) (2022-11-29T12:25:25Z) - Improving Diffusion Models for Inverse Problems using Manifold Constraints [55.91148172752894]
我々は,現在の解法がデータ多様体からサンプルパスを逸脱し,エラーが蓄積することを示す。
この問題に対処するため、多様体の制約に着想を得た追加の補正項を提案する。
本手法は理論上も経験上も従来の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-02T09:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。