Fugu-MT 論文翻訳(概要): Accelerating Diffusion Transformers with Dual Feature Caching

論文の概要: Accelerating Diffusion Transformers with Dual Feature Caching

arxiv url: http://arxiv.org/abs/2412.18911v1
Date: Wed, 25 Dec 2024 14:00:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.998789
Title: Accelerating Diffusion Transformers with Dual Feature Caching
Title（参考訳）: デュアル特徴キャッシングによる拡散変圧器の高速化
Authors: Chang Zou, Evelyn Zhang, Runlin Guo, Haohang Xu, Conghui He, Xuming Hu, Linfeng Zhang,
Abstract要約: 拡散変換器(DiT)は画像およびビデオ生成において支配的な手法となっているが、依然としてかなりの計算コストを被っている。 DiTアクセラレーションの効果的なアプローチとして、機能キャッシング手法は、以前のタイムステップでDiTの特徴をキャッシュするように設計されている。以前のタイムステップでキャッシュされたすべての機能を積極的に再利用することで、世代品質が大幅に低下する。
参考スコア（独自算出の注目度）: 25.36988865752475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion Transformers (DiT) have become the dominant methods in image and video generation yet still suffer substantial computational costs. As an effective approach for DiT acceleration, feature caching methods are designed to cache the features of DiT in previous timesteps and reuse them in the next timesteps, allowing us to skip the computation in the next timesteps. However, on the one hand, aggressively reusing all the features cached in previous timesteps leads to a severe drop in generation quality. On the other hand, conservatively caching only the features in the redundant layers or tokens but still computing the important ones successfully preserves the generation quality but results in reductions in acceleration ratios. Observing such a tradeoff between generation quality and acceleration performance, this paper begins by quantitatively studying the accumulated error from cached features. Surprisingly, we find that aggressive caching does not introduce significantly more caching errors in the caching step, and the conservative feature caching can fix the error introduced by aggressive caching. Thereby, we propose a dual caching strategy that adopts aggressive and conservative caching iteratively, leading to significant acceleration and high generation quality at the same time. Besides, we further introduce a V-caching strategy for token-wise conservative caching, which is compatible with flash attention and requires no training and calibration data. Our codes have been released in Github: \textbf{Code: \href{https://github.com/Shenyi-Z/DuCa}{\texttt{\textcolor{cyan}{https://github.com/Shenyi-Z/DuCa}}}}
Abstract（参考訳）: 拡散変換器(DiT)は画像およびビデオ生成において支配的な手法となっているが、依然としてかなりの計算コストを被っている。 DiTアクセラレーションの効果的なアプローチとして、機能キャッシング手法は、前のタイムステップでDiTの機能をキャッシュし、次のタイムステップで再利用するように設計されており、次のタイムステップで計算をスキップすることができる。しかし、一方では、以前のタイムステップでキャッシュされたすべての機能を積極的に再利用することで、生成品質が大幅に低下する。一方、冗長層やトークンの特徴のみを保守的にキャッシュするが、それでも重要な要素を計算すれば生成品質は維持できるが、加速比は低下する。生成品質と加速性能のトレードオフを観測し、キャッシュされた特徴から蓄積した誤差を定量的に研究することから始める。驚いたことに、アグレッシブキャッシングはキャッシュステップで大幅にキャッシングエラーを発生させず、保守的な機能キャッシングはアグレッシブキャッシングによってもたらされるエラーを修正することができる。そこで我々は,攻撃的かつ保守的なキャッシングを反復的に導入し,同時に大幅な高速化と高性能化を実現する2つのキャッシング戦略を提案する。さらに、フラッシュアテンションと互換性があり、トレーニングや校正データを必要としないトークン単位の保守的なキャッシュのためのVキャッシュ戦略も導入する。私たちのコードはGithubで公開されている。 \textbf{Code: \href{https://github.com/Shenyi-Z/DuCa}{\texttt{\textcolor{cyan}{https://github.com/Shenyi-Z/DuCa}}}}

関連論文リスト

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [46.57781555466333]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。 FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文参考訳（メタデータ） (2025-05-26T05:58:49Z)
Exposure Bias Reduction for Enhancing Diffusion Transformer Feature Caching [7.393824353099595]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。拡散過程のSNRに対するキャッシングの影響を解析する。非露出バイアスを整合させる共同キャッシュ戦略であるEBキャッシュを導入する。
論文参考訳（メタデータ） (2025-03-10T09:49:18Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
Accelerating Diffusion Transformer via Gradient-Optimized Cache [18.32157920050325]
キャッシュされたブロックからのプログレッシブなエラー蓄積は、生成品質を著しく低下させる。現在のエラー補償アプローチは、キャッシュプロセス中に動的パターンを無視し、最適以下のエラー訂正につながる。本稿では,2つの重要なイノベーションを取り入れたGradient-lectiond Cache (GOC)を提案する。 GOCはIS 216.28 (26.3%上)とFID 3.907 (43%下)をベースラインのDiTと比較して達成し、計算コストは同じである。
論文参考訳（メタデータ） (2025-03-07T05:31:47Z)
Accelerating Diffusion Transformer via Error-Optimized Cache [17.666577782052205]
Diffusion Transformer (DiT) はコンテンツ生成の重要な方法である。既存のキャッシュ手法は、前回のステップからDiT機能を再利用し、次のステップで計算をスキップすることで、生成を加速する。この問題を解決するために、エラーdキャッシュ(EOC)を提案する。
論文参考訳（メタデータ） (2025-01-31T15:58:15Z)
Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文参考訳（メタデータ） (2024-11-25T13:33:41Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文参考訳（メタデータ） (2024-10-25T07:24:38Z)
Accelerating Diffusion Transformers with Token-wise Feature Caching [19.140800616594294]
拡散変換器は、膨大な計算コストを犠牲にして、画像合成とビデオ合成の両方において有意な効果を示した。トークンワイズ機能キャッシングを導入し、キャッシングに最も適したトークンを適応的に選択できるようにします。 PixArt-$alpha$、OpenSora、DiTの実験では、トレーニングの必要なく、画像生成とビデオ生成の両方の有効性を実証しています。
論文参考訳（メタデータ） (2024-10-05T03:47:06Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。