論文の概要: NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models
- arxiv url: http://arxiv.org/abs/2507.11245v2
- Date: Tue, 29 Jul 2025 17:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:51.35816
- Title: NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models
- Title(参考訳): NarrLV:ロングビデオ生成モデルのための総合的物語中心評価に向けて
- Authors: X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang,
- Abstract要約: 長いビデオ生成タスクの目標は、ビデオの長さを延ばすだけでなく、長いビデオの中でよりリッチな物語コンテンツを正確に表現することである。
提案するNarrLVは,Long Video生成モデルのナラティブ表現能力を総合的に評価する最初のベンチマークである。
- 参考スコア(独自算出の注目度): 0.17413461132662073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of foundation video generation technologies, long video generation models have exhibited promising research potential thanks to expanded content creation space. Recent studies reveal that the goal of long video generation tasks is not only to extend video duration but also to accurately express richer narrative content within longer videos. However, due to the lack of evaluation benchmarks specifically designed for long video generation models, the current assessment of these models primarily relies on benchmarks with simple narrative prompts (e.g., VBench). To the best of our knowledge, our proposed NarrLV is the first benchmark to comprehensively evaluate the Narrative expression capabilities of Long Video generation models. Inspired by film narrative theory, (i) we first introduce the basic narrative unit maintaining continuous visual presentation in videos as Temporal Narrative Atom (TNA), and use its count to quantitatively measure narrative richness. Guided by three key film narrative elements influencing TNA changes, we construct an automatic prompt generation pipeline capable of producing evaluation prompts with a flexibly expandable number of TNAs. (ii) Then, based on the three progressive levels of narrative content expression, we design an effective evaluation metric using the MLLM-based question generation and answering framework. (iii) Finally, we conduct extensive evaluations on existing long video generation models and the foundation generation models. Experimental results demonstrate that our metric aligns closely with human judgments. The derived evaluation outcomes reveal the detailed capability boundaries of current video generation models in narrative content expression.
- Abstract(参考訳): ファンデーションビデオ生成技術の急速な発展に伴い、長いビデオ生成モデルは、コンテンツ作成スペースの拡大により、有望な研究可能性を示した。
近年の研究では、長いビデオ生成タスクの目的は、ビデオの長さを延ばすだけでなく、長いビデオ内でよりリッチな物語コンテンツを正確に表現することにある。
しかしながら、ロングビデオ生成モデル用に特別に設計された評価ベンチマークが欠如しているため、これらのモデルに対する現在の評価は主に単純な物語的プロンプト(例えば、VBench)を持つベンチマークに依存している。
我々の知る限り,提案するNarrLVは,Long Video生成モデルのナラティブ表現能力を総合的に評価する最初のベンチマークである。
映画物語理論に触発された。
(i)まず、ビデオにおける連続的な視覚的提示を時間的ナラティブ・アトム(TNA)として維持する基本的物語ユニットを紹介し、そのカウントを用いて物語の豊かさを定量的に測定する。
TNAの変化に影響を及ぼす3つの重要な映画物語要素によってガイドされ、柔軟に拡張可能なTNA数で評価プロンプトを生成することができる自動プロンプト生成パイプラインを構築した。
2)3段階の物語コンテンツ表現に基づいて,MLLMに基づく質問生成と回答の枠組みを用いて,効果的な評価指標を設計する。
第三に,既存の長編ビデオ生成モデルと基礎生成モデルについて広範な評価を行う。
実験結果から,我々の測定値が人間の判断と密接に一致していることが判明した。
得られた評価結果は、物語コンテンツ表現における現在の映像生成モデルの詳細な機能境界を明らかにする。
関連論文リスト
- VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。