論文の概要: Frame-Level Captions for Long Video Generation with Complex Multi Scenes
- arxiv url: http://arxiv.org/abs/2505.20827v1
- Date: Tue, 27 May 2025 07:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.479557
- Title: Frame-Level Captions for Long Video Generation with Complex Multi Scenes
- Title(参考訳): 複雑なマルチシーンによる長時間ビデオ生成のためのフレームレベルキャプション
- Authors: Guangcong Zheng, Jianlong Yuan, Bo Wang, Haoyang Huang, Guoqing Ma, Nan Duan,
- Abstract要約: 本稿では,データセットをフレームレベルでアノテートする方法を提案する。
この詳細なガイダンスはFrame-Level Attention Mechanismを使って、テキストとビデオの一致を正確に確認する。
トレーニングでは、Diffusion Forcingを使用して、モデルを柔軟に処理する能力を提供します。
- 参考スコア(独自算出の注目度): 52.12699618126831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long videos that can show complex stories, like movie scenes from scripts, has great promise and offers much more than short clips. However, current methods that use autoregression with diffusion models often struggle because their step-by-step process naturally leads to a serious error accumulation (drift). Also, many existing ways to make long videos focus on single, continuous scenes, making them less useful for stories with many events and changes. This paper introduces a new approach to solve these problems. First, we propose a novel way to annotate datasets at the frame-level, providing detailed text guidance needed for making complex, multi-scene long videos. This detailed guidance works with a Frame-Level Attention Mechanism to make sure text and video match precisely. A key feature is that each part (frame) within these windows can be guided by its own distinct text prompt. Our training uses Diffusion Forcing to provide the model with the ability to handle time flexibly. We tested our approach on difficult VBench 2.0 benchmarks ("Complex Plots" and "Complex Landscapes") based on the WanX2.1-T2V-1.3B model. The results show our method is better at following instructions in complex, changing scenes and creates high-quality long videos. We plan to share our dataset annotation methods and trained models with the research community. Project page: https://zgctroy.github.io/frame-level-captions .
- Abstract(参考訳): 脚本の映画シーンのような複雑なストーリーを見せるような長いビデオを生成することは、素晴らしい約束であり、ショートクリップ以上のものを提供する。
しかしながら、拡散モデルによる自己回帰を利用する現在の手法は、ステップバイステップのプロセスが自然に重大なエラーの蓄積(ドリフト)を引き起こすため、しばしば苦労する。
また、長いビデオを単一の連続的なシーンにフォーカスする多くの既存の方法があり、多くのイベントや変更のあるストーリーでは役に立たない。
本稿では,これらの問題を解決するための新しいアプローチを紹介する。
まず、フレームレベルでデータセットに注釈を付ける新しい方法を提案し、複雑なマルチシーンのロングビデオを作成するのに必要な詳細なテキストガイダンスを提供する。
この詳細なガイダンスはFrame-Level Attention Mechanismを使って、テキストとビデオの一致を正確に確認する。
重要な特徴は、これらのウィンドウ内の各部分(フレーム)が独自のテキストプロンプトによってガイドできることである。
トレーニングでは、Diffusion Forcingを使用して、モデルを柔軟に処理する能力を提供します。
我々は、WanX2.1-T2V-1.3Bモデルに基づいて、難しいVBench 2.0ベンチマーク(複合プロットと複合ランドスケープ)でアプローチを検証した。
提案手法は,複雑な場面で指示に従うのが得意であり,高品質な長編ビデオを生成する。
データセットのアノテーションメソッドとトレーニングされたモデルを研究コミュニティと共有する予定です。
プロジェクトページ:https://zgctroy.github.io/frame-level-captions。
関連論文リスト
- Video Diffusion Transformers are In-Context Learners [31.736838809714726]
本稿では,ビデオ拡散変換器のコンテキスト内機能を実現するためのソリューションについて検討する。
本稿では,テキスト内生成を利用するための簡単なパイプラインを提案する: (textbfii$) ビデオは,空間的あるいは時間的次元に沿って行われる。
当社のフレームワークは,研究コミュニティにとって貴重なツールであり,製品レベルの制御可能なビデオ生成システムを進化させる上で重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-14T10:39:55Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Multi-modal Video Chapter Generation [11.658507807110645]
そこで我々は,約10万のユーザ生成ビデオと注釈付き章情報からなる章-Genという新しいデータセットを紹介した。
我々のデータ収集手順は高速でスケーラブルで、追加のマニュアルアノテーションを必要としない。
提案手法は既存の手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-26T13:44:48Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。