Fugu-MT 論文翻訳(概要): MagCache: Fast Video Generation with Magnitude-Aware Cache

論文の概要: MagCache: Fast Video Generation with Magnitude-Aware Cache

arxiv url: http://arxiv.org/abs/2506.09045v1
Date: Tue, 10 Jun 2025 17:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:43.071274
Title: MagCache: Fast Video Generation with Magnitude-Aware Cache
Title（参考訳）: MagCache: マグニチュード対応キャッシュによる高速ビデオ生成
Authors: Zehong Ma, Longhui Wei, Feng Wang, Shiliang Zhang, Qi Tian,
Abstract要約: 我々は、様々なモデルとプロンプトで観察される統一等級法則という、新しく頑健な発見を導入する。我々は、エラーモデリング機構と適応キャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。実験の結果、MagCacheはOpen-SoraとWan 2.1でそれぞれ2.1倍と2.68倍のスピードアップを達成した。
参考スコア（独自算出の注目度）: 91.51242917160373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing acceleration techniques for video diffusion models often rely on uniform heuristics or time-embedding variants to skip timesteps and reuse cached features. These approaches typically require extensive calibration with curated prompts and risk inconsistent outputs due to prompt-specific overfitting. In this paper, we introduce a novel and robust discovery: a unified magnitude law observed across different models and prompts. Specifically, the magnitude ratio of successive residual outputs decreases monotonically and steadily in most timesteps while rapidly in the last several steps. Leveraging this insight, we introduce a Magnitude-aware Cache (MagCache) that adaptively skips unimportant timesteps using an error modeling mechanism and adaptive caching strategy. Unlike existing methods requiring dozens of curated samples for calibration, MagCache only requires a single sample for calibration. Experimental results show that MagCache achieves 2.1x and 2.68x speedups on Open-Sora and Wan 2.1, respectively, while preserving superior visual fidelity. It significantly outperforms existing methods in LPIPS, SSIM, and PSNR, under comparable computational budgets.
Abstract（参考訳）: ビデオ拡散モデルの既存の加速技術は、タイムステップをスキップしたりキャッシュされた機能を再利用するために、均一なヒューリスティックや時間埋め込みの変種に依存することが多い。これらのアプローチは一般に、キュレートされたプロンプトと、プロンプト固有のオーバーフィッティングによるリスクの不整合出力による広範囲なキャリブレーションを必要とする。本稿では,異なるモデルとプロンプトにまたがる統一等級法則を新たに導入する。特に、連続した出力の大きさ比は、ほとんどの時間ステップにおいて単調かつ着実に減少し、最後の数ステップでは急速に減少する。この知見を活用して、エラーモデリング機構と適応的なキャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。キャリブレーションのために数十のキュレートされたサンプルを必要とする既存のメソッドとは異なり、MagCacheはキャリブレーションのために1つのサンプルしか必要としない。実験の結果、MagCacheはOpen-SoraとWan 2.1でそれぞれ2.1倍と2.68倍のスピードアップを達成した。 LPIPS、SSIM、PSNRの既存の手法を同等の計算予算で大幅に上回っている。

関連論文リスト

Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文参考訳（メタデータ） (2025-07-03T17:59:54Z)
FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [46.57781555466333]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。 FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文参考訳（メタデータ） (2025-05-26T05:58:49Z)
FEB-Cache: Frequency-Guided Exposure Bias Reduction for Enhancing Diffusion Transformer Caching [4.8677910801584385]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。本稿では,キャッシュが露出バイアスを大幅に増幅し,生成品質が低下することを確認する。我々は,非露出バイアス拡散プロセスと整合した共同キャッシュ戦略であるFEBキャッシュを導入する。
論文参考訳（メタデータ） (2025-03-10T09:49:18Z)
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。 TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文参考訳（メタデータ） (2024-11-28T12:50:05Z)
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文参考訳（メタデータ） (2024-11-15T16:24:02Z)
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文参考訳（メタデータ） (2024-10-25T07:24:38Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。