論文の概要: SeqBench: Benchmarking Sequential Narrative Generation in Text-to-Video Models
- arxiv url: http://arxiv.org/abs/2510.13042v1
- Date: Tue, 14 Oct 2025 23:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.446374
- Title: SeqBench: Benchmarking Sequential Narrative Generation in Text-to-Video Models
- Title(参考訳): SeqBench: テキスト対ビデオモデルにおける逐次ナラティブ生成のベンチマーク
- Authors: Zhengxu Tang, Zizheng Wang, Luning Wang, Zitao Shuai, Chenhao Zhang, Siyu Qian, Yirui Wu, Bohao Wang, Haosong Rao, Zhenyu Yang, Chenwei Wu,
- Abstract要約: 本稿では,T2V生成における逐次的物語コヒーレンスを評価するための総合ベンチマークであるSeqBenchを紹介する。
私たちは、さまざまな物語の複雑さにまたがる320のプロンプトのデータセットを使用しています。
我々のDTG基準は人間のアノテーションと強い相関を示す。
- 参考スコア(独自算出の注目度): 9.237220559112837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) generation models have made significant progress in creating visually appealing videos. However, they struggle with generating coherent sequential narratives that require logical progression through multiple events. Existing T2V benchmarks primarily focus on visual quality metrics but fail to evaluate narrative coherence over extended sequences. To bridge this gap, we present SeqBench, a comprehensive benchmark for evaluating sequential narrative coherence in T2V generation. SeqBench includes a carefully designed dataset of 320 prompts spanning various narrative complexities, with 2,560 human-annotated videos generated from 8 state-of-the-art T2V models. Additionally, we design a Dynamic Temporal Graphs (DTG)-based automatic evaluation metric, which can efficiently capture long-range dependencies and temporal ordering while maintaining computational efficiency. Our DTG-based metric demonstrates a strong correlation with human annotations. Through systematic evaluation using SeqBench, we reveal critical limitations in current T2V models: failure to maintain consistent object states across multi-action sequences, physically implausible results in multi-object scenarios, and difficulties in preserving realistic timing and ordering relationships between sequential actions. SeqBench provides the first systematic framework for evaluating narrative coherence in T2V generation and offers concrete insights for improving sequential reasoning capabilities in future models. Please refer to https://videobench.github.io/SeqBench.github.io/ for more details.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成モデルは、視覚的に魅力的なビデオを作成する上で大きな進歩を遂げている。
しかし、複数の出来事を通じて論理的な進行を必要とする一貫性のある逐次的な物語を生み出すのに苦労している。
既存のT2Vベンチマークは主に視覚的品質の指標に焦点を当てているが、拡張シーケンスよりも物語のコヒーレンスを評価することができない。
このギャップを埋めるため、T2V生成における逐次的物語コヒーレンスを評価するための総合的なベンチマークであるSeqBenchを提案する。
SeqBenchには、さまざまな物語の複雑さにまたがる320のプロンプトの、慎重に設計されたデータセットが含まれている。
さらに, 動的時間グラフ(DTG)に基づく自動評価尺度を設計し, 計算効率を維持しながら, 時間的依存や時間的依存を効率的に把握する。
我々のDTG基準は人間のアノテーションと強い相関を示す。
SeqBenchを用いた体系的な評価により、現在のT2Vモデルにおいて、多アクションシーケンス間の一貫性のあるオブジェクト状態の維持の失敗、多オブジェクトシナリオにおける物理的に不確実な結果、現実的なタイミングの保存の困難、シーケンシャルアクション間の関係の順序付けといった重要な制限を明らかにした。
SeqBenchは、T2V生成における物語コヒーレンスを評価するための最初の体系的なフレームワークを提供し、将来のモデルにおけるシーケンシャルな推論能力を改善するための具体的な洞察を提供する。
詳細はhttps://videobench.github.io/SeqBench.github.io/を参照してください。
関連論文リスト
- Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Expressing Multivariate Time Series as Graphs with Time Series Attention
Transformer [14.172091921813065]
多変量時系列表現学習のための時系列注意変換器(TSAT)を提案する。
TSATを用いて、エッジ強化された動的グラフの観点から、時系列の時間情報と相互依存の両方を表現している。
TSATは、様々な予測地平線において、最先端の6つのベースライン法より明らかに優れていることを示す。
論文 参考訳(メタデータ) (2022-08-19T12:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。