論文の概要: Let Features Decide Their Own Solvers: Hybrid Feature Caching for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2510.04188v1
- Date: Sun, 05 Oct 2025 13:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.505286
- Title: Let Features Decide Their Own Solvers: Hybrid Feature Caching for Diffusion Transformers
- Title(参考訳): Let Features Decide their Solvers: Hybrid Feature Caching for Diffusion Transformers
- Authors: Shikang Zheng, Guantao Chen, Qinming Zhou, Yuqi Lin, Lixuan He, Chang Zou, Peiliang Cai, Jiacheng Liu, Linfeng Zhang,
- Abstract要約: 拡散変換器は、画像とビデオ合成における最先端の忠実度を提供するが、反復サンプリングプロセスは依然として大きなボトルネックである。
これを軽減するために、隠れた表現を再利用または予測するトレーニング不要のアクセラレーションテクニックとしてフィーチャーキャッシングが登場した。
私たちはHyCaを紹介します。HyCaは、次元ワイドキャッシュ戦略を適用したHyCaというハイブリッドODEソルバにインスパイアされたキャッシュフレームワークです。
- 参考スコア(独自算出の注目度): 10.215762814937277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers offer state-of-the-art fidelity in image and video synthesis, but their iterative sampling process remains a major bottleneck due to the high cost of transformer forward passes at each timestep. To mitigate this, feature caching has emerged as a training-free acceleration technique that reuses or forecasts hidden representations. However, existing methods often apply a uniform caching strategy across all feature dimensions, ignoring their heterogeneous dynamic behaviors. Therefore, we adopt a new perspective by modeling hidden feature evolution as a mixture of ODEs across dimensions, and introduce HyCa, a Hybrid ODE solver inspired caching framework that applies dimension-wise caching strategies. HyCa achieves near-lossless acceleration across diverse domains and models, including 5.55 times speedup on FLUX, 5.56 times speedup on HunyuanVideo, 6.24 times speedup on Qwen-Image and Qwen-Image-Edit without retraining.
- Abstract(参考訳): 拡散変換器は、画像合成とビデオ合成における最先端の忠実さを提供するが、その反復サンプリングプロセスは、各ステップでトランスフォーマーフォワードのコストが高いため、大きなボトルネックとなっている。
これを軽減するために、隠れた表現を再利用または予測するトレーニング不要のアクセラレーションテクニックとしてフィーチャーキャッシングが登場した。
しかし、既存の手法では、全ての特徴次元にわたって均一なキャッシング戦略を適用し、不均一な動的な振る舞いを無視していることが多い。
そこで我々は,隠れた特徴進化を次元をまたいだODEの混合体としてモデル化し,HyCaという,次元ワイドキャッシング戦略を適用したハイブリッドODEソルバにインスパイアされたキャッシングフレームワークを導入することにより,新たな視点を取り入れた。
HyCaは、FLUXの5.55倍のスピードアップ、HunyuanVideoの5.56倍のスピードアップ、Qwen-ImageとQwen-Image-Editの6.24倍のスピードアップなど、さまざまなドメインやモデルでほぼロスレスな加速を実現している。
関連論文リスト
- DiCache: Let Diffusion Model Determine Its Own Cache [62.954717254728166]
DiCacheは、実行時に拡散モデルを加速するためのトレーニング不要のアダプティブキャッシュ戦略である。
Online Probe Profiling Schemeは浅層オンラインプローブを利用して,キャッシュエラーのオンザフライインジケータをリアルタイムで取得する。
Dynamic Cache Trajectory Alignmentは、マルチステップの履歴キャッシュから出力されるディープ層の特徴を近似する。
論文 参考訳(メタデータ) (2025-08-24T13:30:00Z) - Forecast then Calibrate: Feature Caching as ODE for Efficient Diffusion Transformers [19.107716099809707]
拡散変換器(DiT)は高忠実度画像とビデオ生成において例外的な性能を示した。
現在の方法は、しばしば高い加速比で生成品質を維持するのに苦労する。
本稿では,機能キャッシングを機能-ODE問題として扱うFoCaを提案する。
論文 参考訳(メタデータ) (2025-08-22T08:34:03Z) - MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration [15.22288174114487]
キャッシングは、DiTモデルで広く採用されている最適化手法である。
効率的なビデオDiT推論のためのトレーニング不要なキャッシュベースのフレームワークであるMixCacheを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:49:33Z) - CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - CacheQuant: Comprehensively Accelerated Diffusion Models [3.78219736760145]
CacheQuantは、モデルキャッシングと量子化の技術を共同で最適化することで、拡散モデルを包括的に高速化する、新しいトレーニング不要のパラダイムである。
実験の結果、CacheQuantはMS-COCO上の安定拡散のために5.18のスピードアップと4の圧縮を実現しており、CLIPスコアは0.02しか失われていない。
論文 参考訳(メタデータ) (2025-03-03T09:04:51Z) - SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。
本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。
我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文 参考訳(メタデータ) (2024-11-15T16:24:02Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。