論文の概要: LoCoT2V-Bench: A Benchmark for Long-Form and Complex Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2510.26412v1
- Date: Thu, 30 Oct 2025 12:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.795183
- Title: LoCoT2V-Bench: A Benchmark for Long-Form and Complex Text-to-Video Generation
- Title(参考訳): LoCoT2V-Bench: 長大かつ複雑なテキスト・ビデオ生成のためのベンチマーク
- Authors: Xiangqing Zheng, Chengyue Wu, Kehai Chen, Min Zhang,
- Abstract要約: LoCoT2V-Benchは、複雑な入力条件下でのロングビデオ生成(LVG)に特化したベンチマークである。
LoCoT2V-Benchは、さまざまな現実世界のビデオに基づいて、現実的で複雑なプロンプトのセットを紹介している。
新たに提案したメトリクスを含む多次元評価フレームワークを構築する。
- 参考スコア(独自算出の注目度): 33.05973337012911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently text-to-video generation has made impressive progress in producing short, high-quality clips, but evaluating long-form outputs remains a major challenge especially when processing complex prompts. Existing benchmarks mostly rely on simplified prompts and focus on low-level metrics, overlooking fine-grained alignment with prompts and abstract dimensions such as narrative coherence and thematic expression. To address these gaps, we propose LoCoT2V-Bench, a benchmark specifically designed for long video generation (LVG) under complex input conditions. Based on various real-world videos, LoCoT2V-Bench introduces a suite of realistic and complex prompts incorporating elements like scene transitions and event dynamics. Moreover, it constructs a multi-dimensional evaluation framework that includes our newly proposed metrics such as event-level alignment, fine-grained temporal consistency, content clarity, and the Human Expectation Realization Degree (HERD) that focuses on more abstract attributes like narrative flow, emotional response, and character development. Using this framework, we conduct a comprehensive evaluation of nine representative LVG models, finding that while current methods perform well on basic visual and temporal aspects, they struggle with inter-event consistency, fine-grained alignment, and high-level thematic adherence, etc. Overall, LoCoT2V-Bench provides a comprehensive and reliable platform for evaluating long-form complex text-to-video generation and highlights critical directions for future method improvement.
- Abstract(参考訳): 近年,テキスト・ビデオ・ジェネレーションは,短時間で高品質なビデオクリップの製作において顕著な進歩を遂げているが,特に複雑なプロンプトを処理する場合,長文出力の評価は大きな課題である。
既存のベンチマークは主に単純化されたプロンプトに頼り、低レベルのメトリクスに重点を置いており、プロンプトと抽象的な次元、例えば物語のコヒーレンスや主題表現を見渡す。
これらのギャップに対処するために,複雑な入力条件下での長ビデオ生成(LVG)に特化したベンチマークであるLoCoT2V-Benchを提案する。
さまざまな現実世界のビデオに基づいて、LoCoT2V-Benchはシーン遷移やイベントダイナミクスといった要素を取り入れた、現実的で複雑なプロンプトのスイートを紹介している。
さらに、イベントレベルのアライメント、微粒な時間的一貫性、コンテンツの明確性、そして物語の流れ、感情応答、キャラクター発達といったより抽象的な属性に焦点を当てた人間の期待実現度(HERD)といった、新たなメトリクスを含む多次元評価フレームワークを構築した。
この枠組みを用いて,9つの代表的なLVGモデルの総合的な評価を行い,現状の手法は基本的な視覚的側面と時間的側面において良好に機能するが,それらの手法は相互整合性,きめ細かなアライメント,高レベルの主題的付着等に苦慮していることがわかった。
全体として、LoCoT2V-Benchは、長大な複雑なテキスト・ビデオ生成を評価するための包括的で信頼性の高いプラットフォームを提供し、将来のメソッド改善のための重要な方向性を強調している。
関連論文リスト
- BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - Detail++: Training-Free Detail Enhancer for Text-to-Image Diffusion Models [6.140839748607505]
Detail++はプログレッシブ・ディテール・インジェクション(PDI)生成のためのトレーニング不要のフレームワークである。
複雑なプロンプトを単純化されたサブプロンプト列に分解し、生成プロセスを段階的に導く。
T2I-CompBenchと新たに構築されたスタイルコンポジションベンチマークの実験は、Detail++が既存のメソッドよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2025-07-23T18:20:46Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - LVLM-Composer's Explicit Planning for Image Generation [0.0]
LVLM-Composerは,合成画像の高機能化に特化して開発された新しい10ビリオンパラメータスケールLVLMである。
提案手法は,構造化された即時分解のための階層的セマンティック計画モジュールと,生成時の正確な視覚誘導のための細粒度特徴アライメント機構を組み込んだ。
Gemini-2.0-Flash と InternVL3-78B による自動評価を利用した LongBench-T2I ベンチマークの実験では、LVLM-Composer が重要な構成次元にわたって優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-05T20:21:03Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models [12.120541052871486]
T2VTextBenchは、画面上のテキストの忠実度と時間的一貫性を評価するための最初の人間評価ベンチマークである。
オープンソースソリューションから商用製品まで,10の最先端システムを評価しました。
論文 参考訳(メタデータ) (2025-05-08T04:49:52Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。