論文の概要: Long Context Tuning for Video Generation
- arxiv url: http://arxiv.org/abs/2503.10589v1
- Date: Thu, 13 Mar 2025 17:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.797657
- Title: Long Context Tuning for Video Generation
- Title(参考訳): ビデオ生成のためのLong Context Tuning
- Authors: Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang,
- Abstract要約: Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
- 参考スコア(独自算出の注目度): 63.060794860098795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation can produce realistic, minute-long single-shot videos with scalable diffusion transformers. However, real-world narrative videos require multi-shot scenes with visual and dynamic consistency across shots. In this work, we introduce Long Context Tuning (LCT), a training paradigm that expands the context window of pre-trained single-shot video diffusion models to learn scene-level consistency directly from data. Our method expands full attention mechanisms from individual shots to encompass all shots within a scene, incorporating interleaved 3D position embedding and an asynchronous noise strategy, enabling both joint and auto-regressive shot generation without additional parameters. Models with bidirectional attention after LCT can further be fine-tuned with context-causal attention, facilitating auto-regressive generation with efficient KV-cache. Experiments demonstrate single-shot models after LCT can produce coherent multi-shot scenes and exhibit emerging capabilities, including compositional generation and interactive shot extension, paving the way for more practical visual content creation. See https://guoyww.github.io/projects/long-context-video/ for more details.
- Abstract(参考訳): ビデオ生成の最近の進歩は、スケーラブルな拡散トランスフォーマーを備えた、現実的な、数分のシングルショットビデオを生み出すことができる。
しかし、現実の物語ビデオは、複数のショットシーンと、ショット間の視覚的および動的一貫性を必要とする。
本研究では,Long Context Tuning(LCT)というトレーニングパラダイムを導入し,事前学習した単発ビデオ拡散モデルのコンテキストウィンドウを拡張して,データから直接シーンレベルの一貫性を学習する。
本手法は,シーン内の全ショットをフルアテンション機構に拡張し,インターリーブされた3D位置埋め込みと非同期ノイズ戦略を組み込むことにより,追加パラメータを使わずに,関節および自動回帰ショット生成を可能にする。
LCT後の双方向注意モデルはさらに文脈因果的注意によって微調整され、効率的なKVキャッシュによる自己回帰生成が促進される。
実験では、LCTがコヒーレントなマルチショットシーンを生成し、合成生成やインタラクティブなショット拡張など、より実用的なビジュアルコンテンツ作成の道を開くなど、新たな能力を示す。
詳細はhttps://guoyw.github.io/projects/long-context-video/を参照してください。
関連論文リスト
- Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model [14.775908473190684]
Scene Splatterは、単一の画像から一般的なシーンを生成するビデオ拡散のための運動量に基づくパラダイムである。
我々は,映像の詳細を向上し,シーンの一貫性を維持するために,オリジナルの特徴からノイズの多いサンプルをモメンタとして構築する。
我々は,映像拡散モデルを用いて,高忠実度と一貫した新奇なビューを生成する。
論文 参考訳(メタデータ) (2025-04-03T17:00:44Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - Continuous Video Process: Modeling Videos as Continuous Multi-Dimensional Processes for Video Prediction [43.16308241800144]
本稿では,映像を連続的な多次元プロセスとして扱う新しいモデルクラスを提案する。
我々は、KTH、BAIR、Human3.6M、UCF101などのベンチマークデータセットで検証された、ビデオ予測における最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-12-06T10:34:50Z) - VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation [70.61101071902596]
現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。