論文の概要: TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
- arxiv url: http://arxiv.org/abs/2511.13704v1
- Date: Mon, 17 Nov 2025 18:52:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.690802
- Title: TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
- Title(参考訳): TiViBench:ビデオ生成モデルのためのシンク・イン・ビデオ推論のベンチマーク
- Authors: Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen,
- Abstract要約: TiViBench(TiViBench)は、画像対ビデオ(I2V)生成モデルの推論能力を評価するために設計された階層型ベンチマークである。
我々は、好みの最適化にインスパイアされた、シンプルで効果的なテストタイム戦略であるVideoTPOを紹介する。
TiViBenchとVideoTPOは共に、ビデオ生成モデルにおける推論の評価と進歩の道を開いた。
- 参考スコア(独自算出の注目度): 42.763907973320464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.
- Abstract(参考訳): 映像生成モデルの急速な進化は、視覚的に可視な出力を生成することから、物理的可視性と論理的整合性を必要とするタスクに取り組むことへと焦点を移した。
しかし、Veo 3の連鎖推論のような最近のブレークスルーにもかかわらず、これらのモデルが大きな言語モデル(LLM)に似た推論能力を持つかどうかは不明だ。
既存のベンチマークは主に視覚的忠実度と時間的コヒーレンスを評価し、高次推論能力の獲得に失敗した。
このギャップを埋めるために,画像間(I2V)生成モデルの推論能力を評価するための階層型ベンチマークであるTiViBenchを提案する。
TiViBenchは4次元にわたる推論を体系的に評価する。
一 構造推論及び探索
二 空間的・視覚的パターン推論
三 象徴的・論理的推論及び
iv) 行動計画とタスク実行(Action Planning & Task Execution)。
広範に評価した結果,商用モデル(例: Sora 2, Veo 3.1)はより強力な推論可能性を示す一方で,オープンソースモデルは訓練規模やデータの多様性の制限によって妨げられている未解決のポテンシャルを明らかにする。
この可能性をさらに解き放つために,好みの最適化にインスパイアされた,シンプルで効果的なテストタイム戦略であるVideoTPOを導入する。
生成した候補に対してLLM自己分析を行い、強度と弱点を特定することで、 VideoTPOは、追加のトレーニング、データ、報酬モデルを必要としない推論性能を著しく向上する。
TiViBenchとVideoTPOは共に、ビデオ生成モデルにおける推論の評価と進歩の道を開いた。
関連論文リスト
- Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.00111584020834]
我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。
私たちは、人気の高いVeo-3に注力しています。
我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
論文 参考訳(メタデータ) (2025-10-30T17:59:55Z) - More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models [17.431298099935344]
大規模言語モデル(LLM)において、推論が重要な機能として現れている。
近年の研究では、視覚言語モデル(VLM)への推論の拡張が試みられている。
本研究は、マルチモーダル推論の二重性を明らかにし、他の基本的な視覚的問題に対する認識障害につながった。
本稿では,視覚的接地軌道に対する推論過程を明確に把握する,シンプルかつ効果的な手法であるビジョン・アンコレッド・ポリシー・オプティマイズ(VAPO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T06:37:47Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo-[n]シリーズ(o1、o3、o4-mini)のリリースは、大規模言語モデルにおける重要なパラダイムシフトである。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
以上の結果から, o-[n] 級数,特に o3 や o4-mini のような後続の反復は GPT-[n] 級数を著しく上回り,マルチモーダル推論において高いスケーラビリティを示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。