Fugu-MT 論文翻訳(概要): FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

論文の概要: FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

arxiv url: http://arxiv.org/abs/2410.19355v1
Date: Fri, 25 Oct 2024 07:24:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.309993
Title: FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality
Title（参考訳）: FasterCache: 高品質なトレーニング不要なビデオ拡散モデル高速化
Authors: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong,
Abstract要約: FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
参考スコア（独自算出の注目度）: 58.80996741843102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present \textbf{\textit{FasterCache}}, a novel training-free strategy designed to accelerate the inference of video diffusion models with high-quality generation. By analyzing existing cache-based methods, we observe that \textit{directly reusing adjacent-step features degrades video quality due to the loss of subtle variations}. We further perform a pioneering investigation of the acceleration potential of classifier-free guidance (CFG) and reveal significant redundancy between conditional and unconditional features within the same timestep. Capitalizing on these observations, we introduce FasterCache to substantially accelerate diffusion-based video generation. Our key contributions include a dynamic feature reuse strategy that preserves both feature distinction and temporal continuity, and CFG-Cache which optimizes the reuse of conditional and unconditional outputs to further enhance inference speed without compromising video quality. We empirically evaluate FasterCache on recent video diffusion models. Experimental results show that FasterCache can significantly accelerate video generation (\eg 1.67$\times$ speedup on Vchitect-2.0) while keeping video quality comparable to the baseline, and consistently outperform existing methods in both inference speed and video quality.
Abstract（参考訳）: 本稿では,高品質な生成を伴うビデオ拡散モデルの推論を高速化する,新たなトレーニングフリー戦略である「textbf{\textit{FasterCache}}」を提案する。既存のキャッシュベースの手法を解析することにより,<textit{directly reusing adjacent-step features is degrades video quality due by the lost of slightly variation}。さらに、分類器フリーガイダンス(CFG)の加速度ポテンシャルの先駆的な調査を行い、条件付き特徴と非条件付き特徴との有意な冗長性を明らかにした。これらの観測に基づいて、拡散に基づく映像生成を大幅に高速化するFasterCacheを導入する。我々の重要な貢献は、特徴の区別と時間的連続性を両立させる動的な機能再利用戦略と、条件付きおよび非条件付き出力の再利用を最適化し、ビデオ品質を損なうことなく推論速度をさらに向上するCFGキャッシュである。我々は、最近のビデオ拡散モデルにおけるFasterCacheを実証的に評価する。実験結果から、FasterCacheはビデオ生成を著しく高速化し(Vchitect-2.0では1.67$\times$ Speedup)、ベースラインに匹敵するビデオ品質を維持し、推論速度とビデオ品質の両方において既存の手法を一貫して上回っていることがわかった。

関連論文リスト

Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文参考訳（メタデータ） (2025-07-03T17:59:54Z)
dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文参考訳（メタデータ） (2025-05-21T17:32:10Z)
Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models [41.11005178050448]
ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
論文参考訳（メタデータ） (2025-04-04T03:30:15Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
FlexCache: Flexible Approximate Cache System for Video Diffusion [1.6211899643913996]
2つの主要な設計における課題に対処するフレキシブルな近似キャッシュシステムであるFlexCacheを紹介します。 FlexCacheは、最先端の拡散近似キャッシュシステムと比較して、スループットが1.26倍、コストが25%低いことが分かりました。
論文参考訳（メタデータ） (2024-12-18T00:35:16Z)
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。 TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文参考訳（メタデータ） (2024-11-28T12:50:05Z)
Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文参考訳（メタデータ） (2024-11-25T13:33:41Z)
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文参考訳（メタデータ） (2024-11-15T16:24:02Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文参考訳（メタデータ） (2024-11-02T07:52:18Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
Deep Unsupervised Key Frame Extraction for Efficient Video Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文参考訳（メタデータ） (2022-11-12T20:45:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。