論文の概要: Accelerating Diffusion Transformers with Dual Feature Caching
- arxiv url: http://arxiv.org/abs/2412.18911v1
- Date: Wed, 25 Dec 2024 14:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:22.603690
- Title: Accelerating Diffusion Transformers with Dual Feature Caching
- Title(参考訳): デュアル特徴キャッシングによる拡散変圧器の高速化
- Authors: Chang Zou, Evelyn Zhang, Runlin Guo, Haohang Xu, Conghui He, Xuming Hu, Linfeng Zhang,
- Abstract要約: 拡散変換器(DiT)は画像およびビデオ生成において支配的な手法となっているが、依然としてかなりの計算コストを被っている。
DiTアクセラレーションの効果的なアプローチとして、機能キャッシング手法は、以前のタイムステップでDiTの特徴をキャッシュするように設計されている。
以前のタイムステップでキャッシュされたすべての機能を積極的に再利用することで、世代品質が大幅に低下する。
- 参考スコア(独自算出の注目度): 25.36988865752475
- License:
- Abstract: Diffusion Transformers (DiT) have become the dominant methods in image and video generation yet still suffer substantial computational costs. As an effective approach for DiT acceleration, feature caching methods are designed to cache the features of DiT in previous timesteps and reuse them in the next timesteps, allowing us to skip the computation in the next timesteps. However, on the one hand, aggressively reusing all the features cached in previous timesteps leads to a severe drop in generation quality. On the other hand, conservatively caching only the features in the redundant layers or tokens but still computing the important ones successfully preserves the generation quality but results in reductions in acceleration ratios. Observing such a tradeoff between generation quality and acceleration performance, this paper begins by quantitatively studying the accumulated error from cached features. Surprisingly, we find that aggressive caching does not introduce significantly more caching errors in the caching step, and the conservative feature caching can fix the error introduced by aggressive caching. Thereby, we propose a dual caching strategy that adopts aggressive and conservative caching iteratively, leading to significant acceleration and high generation quality at the same time. Besides, we further introduce a V-caching strategy for token-wise conservative caching, which is compatible with flash attention and requires no training and calibration data. Our codes have been released in Github: \textbf{Code: \href{https://github.com/Shenyi-Z/DuCa}{\texttt{\textcolor{cyan}{https://github.com/Shenyi-Z/DuCa}}}}
- Abstract(参考訳): 拡散変換器(DiT)は画像およびビデオ生成において支配的な手法となっているが、依然としてかなりの計算コストを被っている。
DiTアクセラレーションの効果的なアプローチとして、機能キャッシング手法は、前のタイムステップでDiTの機能をキャッシュし、次のタイムステップで再利用するように設計されており、次のタイムステップで計算をスキップすることができる。
しかし、一方では、以前のタイムステップでキャッシュされたすべての機能を積極的に再利用することで、生成品質が大幅に低下する。
一方、冗長層やトークンの特徴のみを保守的にキャッシュするが、それでも重要な要素を計算すれば生成品質は維持できるが、加速比は低下する。
生成品質と加速性能のトレードオフを観測し、キャッシュされた特徴から蓄積した誤差を定量的に研究することから始める。
驚いたことに、アグレッシブキャッシングはキャッシュステップで大幅にキャッシングエラーを発生させず、保守的な機能キャッシングはアグレッシブキャッシングによってもたらされるエラーを修正することができる。
そこで我々は,攻撃的かつ保守的なキャッシングを反復的に導入し,同時に大幅な高速化と高性能化を実現する2つのキャッシング戦略を提案する。
さらに、フラッシュアテンションと互換性があり、トレーニングや校正データを必要としないトークン単位の保守的なキャッシュのためのVキャッシュ戦略も導入する。
私たちのコードはGithubで公開されている。 \textbf{Code: \href{https://github.com/Shenyi-Z/DuCa}{\texttt{\textcolor{cyan}{https://github.com/Shenyi-Z/DuCa}}}}
関連論文リスト
- Accelerating Diffusion Transformer via Error-Optimized Cache [17.991719406545876]
Diffusion Transformer (DiT) はコンテンツ生成の重要な方法である。
既存のキャッシュ手法は、前回のステップからDiT機能を再利用し、次のステップで計算をスキップすることで、生成を加速する。
キャッシュによって引き起こされるエラーを減らさずに、ローエラーモジュールを見つけ、キャッシュする傾向がある。
本稿では,この問題を解決するためにEcoror-d Cache (EOC)を提案する。
論文 参考訳(メタデータ) (2025-01-31T15:58:15Z) - Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。
TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-11-28T12:50:05Z) - Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。
因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文 参考訳(メタデータ) (2024-11-25T13:33:41Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Accelerating Diffusion Transformers with Token-wise Feature Caching [19.140800616594294]
拡散変換器は、膨大な計算コストを犠牲にして、画像合成とビデオ合成の両方において有意な効果を示した。
トークンワイズ機能キャッシングを導入し、キャッシングに最も適したトークンを適応的に選択できるようにします。
PixArt-$alpha$、OpenSora、DiTの実験では、トレーニングの必要なく、画像生成とビデオ生成の両方の有効性を実証しています。
論文 参考訳(メタデータ) (2024-10-05T03:47:06Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。