論文の概要: Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2411.19108v1
- Date: Thu, 28 Nov 2024 12:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:09.883718
- Title: Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
- Title(参考訳): Timestep Embedding Tells: ビデオ拡散モデルにキャッシュする時間
- Authors: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan,
- Abstract要約: Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。
TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 55.64316746098431
- License:
- Abstract: As a fundamental backbone for video generation, diffusion models are challenged by low inference speed due to the sequential nature of denoising. Previous methods speed up the models by caching and reusing model outputs at uniformly selected timesteps. However, such a strategy neglects the fact that differences among model outputs are not uniform across timesteps, which hinders selecting the appropriate model outputs to cache, leading to a poor balance between inference efficiency and visual quality. In this study, we introduce Timestep Embedding Aware Cache (TeaCache), a training-free caching approach that estimates and leverages the fluctuating differences among model outputs across timesteps. Rather than directly using the time-consuming model outputs, TeaCache focuses on model inputs, which have a strong correlation with the modeloutputs while incurring negligible computational cost. TeaCache first modulates the noisy inputs using the timestep embeddings to ensure their differences better approximating those of model outputs. TeaCache then introduces a rescaling strategy to refine the estimated differences and utilizes them to indicate output caching. Experiments show that TeaCache achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07% Vbench score) degradation of visual quality.
- Abstract(参考訳): ビデオ生成の基本的なバックボーンとして、拡散モデルは、デノナイジングのシーケンシャルな性質により、低い推論速度によって挑戦される。
以前の方法は、一様に選択された時間ステップでモデル出力をキャッシュして再利用することで、モデルを高速化する。
しかし、このような戦略は、モデル出力の違いがタイムステップ全体で均一ではないという事実を無視しており、適切なモデル出力をキャッシュに選択することを妨げるため、推論効率と視覚的品質のバランスが低くなる。
本研究では、タイムステップ間のモデル出力の変動を推定し、活用する、トレーニング不要なキャッシュアプローチであるTimestep Embedding Aware Cache(TeaCache)を紹介する。
TeaCacheは、時間を要するモデル出力を直接使用するのではなく、モデル出力と強い相関関係を持つモデル入力に焦点を当て、無視可能な計算コストを発生させる。
TeaCacheはまず、タイムステップの埋め込みを使用してノイズの多い入力を変調し、モデル出力の差分をよりよく近似するようにします。
TeaCacheは次に、見積もりの違いを洗練するための再スケーリング戦略を導入し、出力キャッシュを示すためにそれらを利用する。
実験の結果、TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現し、視覚的品質の劣化(-0.07% Vbenchスコア)を無視できることがわかった。
関連論文リスト
- Accelerating Diffusion Transformer via Error-Optimized Cache [17.991719406545876]
Diffusion Transformer (DiT) はコンテンツ生成の重要な方法である。
既存のキャッシュ手法は、前回のステップからDiT機能を再利用し、次のステップで計算をスキップすることで、生成を加速する。
キャッシュによって引き起こされるエラーを減らさずに、ローエラーモジュールを見つけ、キャッシュする傾向がある。
本稿では,この問題を解決するためにEcoror-d Cache (EOC)を提案する。
論文 参考訳(メタデータ) (2025-01-31T15:58:15Z) - FlexCache: Flexible Approximate Cache System for Video Diffusion [1.6211899643913996]
2つの主要な設計における課題に対処するフレキシブルな近似キャッシュシステムであるFlexCacheを紹介します。
FlexCacheは、最先端の拡散近似キャッシュシステムと比較して、スループットが1.26倍、コストが25%低いことが分かりました。
論文 参考訳(メタデータ) (2024-12-18T00:35:16Z) - Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。
因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文 参考訳(メタデータ) (2024-11-25T13:33:41Z) - SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。
本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。
我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文 参考訳(メタデータ) (2024-11-15T16:24:02Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。