Fugu-MT 論文翻訳(概要): Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

論文の概要: Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

arxiv url: http://arxiv.org/abs/2411.19108v1
Date: Thu, 28 Nov 2024 12:50:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.775023
Title: Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
Title（参考訳）: Timestep Embedding Tells: ビデオ拡散モデルにキャッシュする時間
Authors: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan,
Abstract要約: Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。 TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
参考スコア（独自算出の注目度）: 55.64316746098431
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a fundamental backbone for video generation, diffusion models are challenged by low inference speed due to the sequential nature of denoising. Previous methods speed up the models by caching and reusing model outputs at uniformly selected timesteps. However, such a strategy neglects the fact that differences among model outputs are not uniform across timesteps, which hinders selecting the appropriate model outputs to cache, leading to a poor balance between inference efficiency and visual quality. In this study, we introduce Timestep Embedding Aware Cache (TeaCache), a training-free caching approach that estimates and leverages the fluctuating differences among model outputs across timesteps. Rather than directly using the time-consuming model outputs, TeaCache focuses on model inputs, which have a strong correlation with the modeloutputs while incurring negligible computational cost. TeaCache first modulates the noisy inputs using the timestep embeddings to ensure their differences better approximating those of model outputs. TeaCache then introduces a rescaling strategy to refine the estimated differences and utilizes them to indicate output caching. Experiments show that TeaCache achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07% Vbench score) degradation of visual quality.
Abstract（参考訳）: ビデオ生成の基本的なバックボーンとして、拡散モデルは、デノナイジングのシーケンシャルな性質により、低い推論速度によって挑戦される。以前の方法は、一様に選択された時間ステップでモデル出力をキャッシュして再利用することで、モデルを高速化する。しかし、このような戦略は、モデル出力の違いがタイムステップ全体で均一ではないという事実を無視しており、適切なモデル出力をキャッシュに選択することを妨げるため、推論効率と視覚的品質のバランスが低くなる。本研究では、タイムステップ間のモデル出力の変動を推定し、活用する、トレーニング不要なキャッシュアプローチであるTimestep Embedding Aware Cache(TeaCache)を紹介する。 TeaCacheは、時間を要するモデル出力を直接使用するのではなく、モデル出力と強い相関関係を持つモデル入力に焦点を当て、無視可能な計算コストを発生させる。 TeaCacheはまず、タイムステップの埋め込みを使用してノイズの多い入力を変調し、モデル出力の差分をよりよく近似するようにします。 TeaCacheは次に、見積もりの違いを洗練するための再スケーリング戦略を導入し、出力キャッシュを示すためにそれらを利用する。実験の結果、TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現し、視覚的品質の劣化(-0.07% Vbenchスコア)を無視できることがわかった。

関連論文リスト

PromptTea: Let Prompts Tell TeaCache the Optimal Threshold [1.0665410339553834]
一般的な加速戦略は、一定の間隔でキャッシング機構を介してモデル出力を再利用することである。本稿では,入力プロンプトから直接推定されるシーンの複雑さに基づいて,再利用しきい値を自動的に調整する手法であるPrompt-Complexity-Aware(PCA)キャッシングを提案する。
論文参考訳（メタデータ） (2025-07-09T10:53:05Z)
Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文参考訳（メタデータ） (2025-07-03T17:59:54Z)
MagCache: Fast Video Generation with Magnitude-Aware Cache [91.51242917160373]
我々は、様々なモデルとプロンプトで観察される統一等級法則という、新しく頑健な発見を導入する。我々は、エラーモデリング機構と適応キャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。実験の結果、MagCacheはOpen-SoraとWan 2.1でそれぞれ2.1倍と2.68倍のスピードアップを達成した。
論文参考訳（メタデータ） (2025-06-10T17:59:02Z)
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models [41.11005178050448]
ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
論文参考訳（メタデータ） (2025-04-04T03:30:15Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
FlexCache: Flexible Approximate Cache System for Video Diffusion [1.6211899643913996]
2つの主要な設計における課題に対処するフレキシブルな近似キャッシュシステムであるFlexCacheを紹介します。 FlexCacheは、最先端の拡散近似キャッシュシステムと比較して、スループットが1.26倍、コストが25%低いことが分かりました。
論文参考訳（メタデータ） (2024-12-18T00:35:16Z)
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文参考訳（メタデータ） (2024-11-15T16:24:02Z)
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文参考訳（メタデータ） (2024-10-25T07:24:38Z)
HarmoniCa: Harmonizing Training and Inference for Better Feature Cache in Diffusion Transformer Acceleration [18.170285241800798]
本稿では,新しい学習ベースキャッシングフレームワークを用いて,学習と推論を調和させる新しい手法を提案する。従来の訓練パラダイムと比較して、新たに提案されたSDTは、認知プロセスの継続性を維持している。 IEPOは効率的なプロキシメカニズムを統合して、キャッシュされた機能の再使用による最終的な画像エラーを近似する。
論文参考訳（メタデータ） (2024-10-02T16:34:29Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文参考訳（メタデータ） (2023-12-06T00:51:38Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。