論文の概要: From Slow Bidirectional to Fast Causal Video Generators
- arxiv url: http://arxiv.org/abs/2412.07772v1
- Date: Tue, 10 Dec 2024 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:42.976032
- Title: From Slow Bidirectional to Fast Causal Video Generators
- Title(参考訳): スロー双方向から高速因果ビデオジェネレータへ
- Authors: Tianwei Yin, Qiang Zhang, Richard Zhang, William T. Freeman, Fredo Durand, Eli Shechtman, Xun Huang,
- Abstract要約: 現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限は、予め訓練された双方向拡散変換器を、フレームをオンザフライで生成する因果変換器に適応させることによって解決する。
我々のモデルは、KVキャッシュのおかげで、単一のGPU上で9.4 FPSで高速な高品質ビデオのストリーミング生成をサポートする。
- 参考スコア(独自算出の注目度): 52.32078428442281
- License:
- Abstract: Current video diffusion models achieve impressive generation quality but struggle in interactive applications due to bidirectional attention dependencies. The generation of a single frame requires the model to process the entire sequence, including the future. We address this limitation by adapting a pretrained bidirectional diffusion transformer to a causal transformer that generates frames on-the-fly. To further reduce latency, we extend distribution matching distillation (DMD) to videos, distilling 50-step diffusion model into a 4-step generator. To enable stable and high-quality distillation, we introduce a student initialization scheme based on teacher's ODE trajectories, as well as an asymmetric distillation strategy that supervises a causal student model with a bidirectional teacher. This approach effectively mitigates error accumulation in autoregressive generation, allowing long-duration video synthesis despite training on short clips. Our model supports fast streaming generation of high quality videos at 9.4 FPS on a single GPU thanks to KV caching. Our approach also enables streaming video-to-video translation, image-to-video, and dynamic prompting in a zero-shot manner. We will release the code based on an open-source model in the future.
- Abstract(参考訳): 現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
単一のフレームの生成には、将来を含むシーケンス全体を処理するモデルが必要である。
この制限は、予め訓練された双方向拡散変換器を、フレームをオンザフライで生成する因果変換器に適応させることによって解決する。
さらに遅延を低減するため,50段拡散モデルを4段生成器に蒸留し,DMDをビデオに拡張する。
安定かつ高品質な蒸留を可能にするため,教師のODEトラジェクトリに基づく学生初期化スキームと,双方向教師による因果学生モデルの監督を行う非対称蒸留戦略を導入する。
このアプローチは自動回帰生成におけるエラーの蓄積を効果的に軽減し、短いクリップのトレーニングにもかかわらず長時間ビデオ合成を可能にする。
我々のモデルは、KVキャッシュのおかげで、単一のGPU上で9.4 FPSで高速な高品質ビデオのストリーミング生成をサポートする。
また,ビデオ間翻訳,画像間翻訳,動的プロンプトをゼロショット方式で行えるようにした。
将来的には、オープンソースモデルに基づいたコードをリリースする予定です。
関連論文リスト
- Single Trajectory Distillation for Accelerating Image and Video Style Transfer [22.304420035048942]
拡散に基づくスタイリング手法は、通常、イメージ・ツー・イメージやビデオ・ツー・ビデオのタスクにおいて、特定の部分的なノイズ状態から逸脱する。
特定部分雑音状態から始まる単一軌道蒸留(STD)を提案する。
提案手法は,スタイルの類似性や美的評価の観点から,既存の加速度モデルを超えている。
論文 参考訳(メタデータ) (2024-12-25T16:40:23Z) - DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization [50.30051934609654]
本稿では,数段階のビデオ生成を実現するため,変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。
提案手法は10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。
1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
論文 参考訳(メタデータ) (2024-12-20T09:07:36Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。
元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。
フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文 参考訳(メタデータ) (2024-10-08T12:10:37Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。