論文の概要: Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation
- arxiv url: http://arxiv.org/abs/2412.16211v1
- Date: Tue, 17 Dec 2024 23:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:21:42.196447
- Title: Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation
- Title(参考訳): あなたの世界シミュレーターは良いストーリープレゼンターか? : 未来のロングビデオ生成のための簡潔なイベントベースベンチマーク
- Authors: Yiping Wang, Xuehai He, Kuan Wang, Luyao Ma, Jianwei Yang, Shuohang Wang, Simon Shaolei Du, Yelong Shen,
- Abstract要約: 我々は、ストーリー指向のベンチマークであるStoryEvalを紹介し、テキスト・トゥ・ビデオ(T2V)モデルのストーリー・コンプリート機能を評価する。
StoryEvalは7つのクラスにまたがる423のプロンプトを備えている。
我々は、GPT-4VやLLaVA-OV-Chat-72Bといった高度な視覚言語モデルを用いて、生成されたビデオ内の各イベントの完了を検証する。
- 参考スコア(独自算出の注目度): 71.32108638269517
- License:
- Abstract: The current state-of-the-art video generative models can produce commercial-grade videos with highly realistic details. However, they still struggle to coherently present multiple sequential events in the stories specified by the prompts, which is foreseeable an essential capability for future long video generation scenarios. For example, top T2V generative models still fail to generate a video of the short simple story 'how to put an elephant into a refrigerator.' While existing detail-oriented benchmarks primarily focus on fine-grained metrics like aesthetic quality and spatial-temporal consistency, they fall short of evaluating models' abilities to handle event-level story presentation. To address this gap, we introduce StoryEval, a story-oriented benchmark specifically designed to assess text-to-video (T2V) models' story-completion capabilities. StoryEval features 423 prompts spanning 7 classes, each representing short stories composed of 2-4 consecutive events. We employ advanced vision-language models, such as GPT-4V and LLaVA-OV-Chat-72B, to verify the completion of each event in the generated videos, applying a unanimous voting method to enhance reliability. Our methods ensure high alignment with human evaluations, and the evaluation of 11 models reveals its challenge, with none exceeding an average story-completion rate of 50%. StoryEval provides a new benchmark for advancing T2V models and highlights the challenges and opportunities in developing next-generation solutions for coherent story-driven video generation.
- Abstract(参考訳): 現在の最先端のビデオ生成モデルは、非常にリアルなディテールで商業レベルのビデオを生成することができる。
しかし、プロンプトが指定したストーリーで複数のシーケンシャルなイベントを一貫性を持って提示することは依然として困難であり、これは将来の長いビデオ生成シナリオに不可欠な機能であると考えられる。
例えば、トップT2V生成モデルでは、「象を冷蔵庫に入れよう」という短い単純な話のビデオが生成できない。
既存のディテール指向のベンチマークは主に美的品質や空間的時間的一貫性といった詳細なメトリクスに焦点を当てているが、イベントレベルのストーリープレゼンテーションを扱うモデルの能力を評価するには不足している。
このギャップに対処するために、私たちは、テキスト・ツー・ビデオ(T2V)モデルのストーリー・コンプリート機能を評価するために特別に設計されたストーリー指向のベンチマークであるStoryEvalを紹介します。
StoryEvalは7つのクラスにまたがる423のプロンプトを備えている。
我々は、GPT-4VやLLaVA-OV-Chat-72Bのような高度な視覚言語モデルを用いて、生成されたビデオ内の各イベントの完了を検証する。
提案手法は, 人間の評価と高い整合性を確保し, 平均ストーリーコンプリート率50%を超えない11モデルの評価は, 課題を明らかにしている。
StoryEvalは、T2Vモデルを進化させるための新しいベンチマークを提供し、コヒーレントなストーリー駆動ビデオ生成のための次世代ソリューションを開発する際の課題と機会を強調している。
関連論文リスト
- Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。