論文の概要: FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality
- arxiv url: http://arxiv.org/abs/2410.19355v1
- Date: Fri, 25 Oct 2024 07:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:35.448536
- Title: FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality
- Title(参考訳): FasterCache: 高品質なトレーニング不要なビデオ拡散モデル高速化
- Authors: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong,
- Abstract要約: FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
- 参考スコア(独自算出の注目度): 58.80996741843102
- License:
- Abstract: In this paper, we present \textbf{\textit{FasterCache}}, a novel training-free strategy designed to accelerate the inference of video diffusion models with high-quality generation. By analyzing existing cache-based methods, we observe that \textit{directly reusing adjacent-step features degrades video quality due to the loss of subtle variations}. We further perform a pioneering investigation of the acceleration potential of classifier-free guidance (CFG) and reveal significant redundancy between conditional and unconditional features within the same timestep. Capitalizing on these observations, we introduce FasterCache to substantially accelerate diffusion-based video generation. Our key contributions include a dynamic feature reuse strategy that preserves both feature distinction and temporal continuity, and CFG-Cache which optimizes the reuse of conditional and unconditional outputs to further enhance inference speed without compromising video quality. We empirically evaluate FasterCache on recent video diffusion models. Experimental results show that FasterCache can significantly accelerate video generation (\eg 1.67$\times$ speedup on Vchitect-2.0) while keeping video quality comparable to the baseline, and consistently outperform existing methods in both inference speed and video quality.
- Abstract(参考訳): 本稿では,高品質な生成を伴うビデオ拡散モデルの推論を高速化する,新たなトレーニングフリー戦略である「textbf{\textit{FasterCache}}」を提案する。
既存のキャッシュベースの手法を解析することにより,<textit{directly reusing adjacent-step features is degrades video quality due by the lost of slightly variation}。
さらに、分類器フリーガイダンス(CFG)の加速度ポテンシャルの先駆的な調査を行い、条件付き特徴と非条件付き特徴との有意な冗長性を明らかにした。
これらの観測に基づいて、拡散に基づく映像生成を大幅に高速化するFasterCacheを導入する。
我々の重要な貢献は、特徴の区別と時間的連続性を両立させる動的な機能再利用戦略と、条件付きおよび非条件付き出力の再利用を最適化し、ビデオ品質を損なうことなく推論速度をさらに向上するCFGキャッシュである。
我々は、最近のビデオ拡散モデルにおけるFasterCacheを実証的に評価する。
実験結果から、FasterCacheはビデオ生成を著しく高速化し(Vchitect-2.0では1.67$\times$ Speedup)、ベースラインに匹敵するビデオ品質を維持し、推論速度とビデオ品質の両方において既存の手法を一貫して上回っていることがわかった。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。
本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。
我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-11-02T07:52:18Z) - VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。