論文の概要: Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing
- arxiv url: http://arxiv.org/abs/2411.16375v1
- Date: Mon, 25 Nov 2024 13:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:18.344244
- Title: Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing
- Title(参考訳): Ca2-VDM:因果生成とキャッシュ共有を伴う効率的な自己回帰ビデオ拡散モデル
- Authors: Kaifeng Gao, Jiaxin Shi, Hanwang Zhang, Chunping Wang, Jun Xiao, Long Chen,
- Abstract要約: Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。
因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
- 参考スコア(独自算出の注目度): 66.66090399385304
- License:
- Abstract: With the advance of diffusion models, today's video generation has achieved impressive quality. To extend the generation length and facilitate real-world applications, a majority of video diffusion models (VDMs) generate videos in an autoregressive manner, i.e., generating subsequent clips conditioned on the last frame(s) of the previous clip. However, existing autoregressive VDMs are highly inefficient and redundant: The model must re-compute all the conditional frames that are overlapped between adjacent clips. This issue is exacerbated when the conditional frames are extended autoregressively to provide the model with long-term context. In such cases, the computational demands increase significantly (i.e., with a quadratic complexity w.r.t. the autoregression step). In this paper, we propose Ca2-VDM, an efficient autoregressive VDM with Causal generation and Cache sharing. For causal generation, it introduces unidirectional feature computation, which ensures that the cache of conditional frames can be precomputed in previous autoregression steps and reused in every subsequent step, eliminating redundant computations. For cache sharing, it shares the cache across all denoising steps to avoid the huge cache storage cost. Extensive experiments demonstrated that our Ca2-VDM achieves state-of-the-art quantitative and qualitative video generation results and significantly improves the generation speed. Code is available at https://github.com/Dawn-LX/CausalCache-VDM
- Abstract(参考訳): 拡散モデルの進歩により、今日のビデオ生成は印象的な品質を達成した。
ビデオ拡散モデル(VDM)の大多数は、生成長を延ばし、実際の応用を容易にするために、自己回帰的な方法でビデオを生成する。
しかし、既存の自己回帰VDMは非常に非効率で冗長である: モデルは隣のクリップ間で重なり合う条件付きフレームを再計算する必要がある。
この問題は、条件付きフレームが自己回帰的に拡張され、長期的文脈でモデルを提供するときにさらに悪化する。
このような場合、計算要求は大幅に増大する(すなわち、自己回帰ステップのように二次的な複雑性を持つ)。
本稿では、Ca2-VDMを提案する。Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自動回帰VDMである。
因果生成のために、一方向の特徴計算を導入し、条件付きフレームのキャッシュを以前の自己回帰ステップでプリ計算し、その後のステップで再利用できるようにし、冗長な計算をなくす。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
広汎な実験により,我々のCa2-VDMは,最先端の定量的,定性的なビデオ生成結果を実現し,生成速度を著しく向上させることを示した。
コードはhttps://github.com/Dawn-LX/CausalCache-VDMで入手できる。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - VA-RED$^2$: Video Adaptive Redundancy Reduction [64.75692128294175]
我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
論文 参考訳(メタデータ) (2021-02-15T22:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。