論文の概要: Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
- arxiv url: http://arxiv.org/abs/2510.26802v1
- Date: Thu, 30 Oct 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.979655
- Title: Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
- Title(参考訳): ビデオモデルはゼロショット共振器として準備されているか? : MME-CoFベンチマークによる実証研究
- Authors: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng,
- Abstract要約: 我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。
私たちは、人気の高いVeo-3に注力しています。
我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
- 参考スコア(独自算出の注目度): 124.00111584020834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video generation models can produce high-fidelity, temporally coherent videos, indicating that they may encode substantial world knowledge. Beyond realistic synthesis, they also exhibit emerging behaviors indicative of visual perception, modeling, and manipulation. Yet, an important question still remains: Are video models ready to serve as zero-shot reasoners in challenging visual reasoning scenarios? In this work, we conduct an empirical study to comprehensively investigate this question, focusing on the leading and popular Veo-3. We evaluate its reasoning behavior across 12 dimensions, including spatial, geometric, physical, temporal, and embodied logic, systematically characterizing both its strengths and failure modes. To standardize this study, we curate the evaluation data into MME-CoF, a compact benchmark that enables in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our findings reveal that while current video models demonstrate promising reasoning patterns on short-horizon spatial coherence, fine-grained grounding, and locally consistent dynamics, they remain limited in long-horizon causal reasoning, strict geometric constraints, and abstract logic. Overall, they are not yet reliable as standalone zero-shot reasoners, but exhibit encouraging signs as complementary visual engines alongside dedicated reasoning models. Project page: https://video-cof.github.io
- Abstract(参考訳): 最近のビデオ生成モデルは、高忠実で時間的に整合したビデオを生成することができ、それらはかなりの世界の知識を符号化する可能性があることを示している。
現実的な合成以外にも、視覚的知覚、モデリング、操作を示す新しい行動を示す。
ビデオモデルは、視覚的推論のシナリオにおいて、ゼロショット推論として機能する準備ができていますか?
本研究では,先進的で人気の高いVeo-3を中心に,この問題を包括的に調査するための実証的研究を行う。
本研究では,空間的,幾何学的,物理的,時間的,具体的ロジックを含む12次元の推論挙動を評価し,その強みと失敗モードの両方を体系的に特徴づける。
この研究を標準化するために、我々は評価データをMME-CoFにキュレートする。これは、coF(Chain-of-Frame)推論の深度と徹底的な評価を可能にするコンパクトなベンチマークである。
以上の結果から,最近のビデオモデルでは,短距離空間コヒーレンス,きめ細かなグラウンドリング,局所的一貫したダイナミクスに有望な推論パターンが示されているが,長焦点因果推論,厳密な厳密な制約,抽象論理に制限が残されていることが明らかとなった。
全体としては、それらはスタンドアローンのゼロショット推論器としてはまだ信頼性がないが、専用の推論モデルとともに補完的な視覚エンジンとして奨励的な兆候を示す。
プロジェクトページ: https://video-cof.github.io
関連論文リスト
- When Thinking Drifts: Evidential Grounding for Robust Video Reasoning [68.75730050161219]
CoT(Chain-of-Thought)メカニズムは、テキストベースのタスクにおける推論を強化した。
CoTはビデオ推論のパフォーマンスを劣化させ、冗長だが内部のモノローグを誤解させる。
ビジュアルエビデンス・リワード(Visual Evidence Reward、VER)は、ビジュアルエビデンスに根ざした推論トレースの生成に明示的に報いる強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-07T16:03:33Z) - ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。
ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs [18.07249962240035]
ビデオ大言語モデル(ビデオ-LLM)は、マルチモーダル推論を必要とする現実のアプリケーションにますます統合されている。
これらのモデルが視覚的エビデンスと矛盾する場合でも、ユーザ入力と整合する傾向は、そのような文脈において彼らの信頼性を損なう。
我々は,最新のビデオLLMにおけるサイコファンティックな振る舞いを評価するための最初のベンチマークであるVISE(Video-LLM Sycophancy Benchmarking and Evaluation)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:00:21Z) - Causality Model for Semantic Understanding on Videos [0.0]
この論文はセマンティックビデオ理解の領域に焦点を当てている。
VidVRD(Video Relation Detection)とVideoQA(Video Question Answering)の2つの基本的なタスクを前進させる因果モデリングの可能性を探る。
論文 参考訳(メタデータ) (2025-03-16T10:44:11Z) - V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning [40.18308199837137]
これらの問題点に対処するために,ビデオS-テンポラル推論(V-STa)ベンチマークを導入する。
我々は,ビデオLLMの時空間推論プロセスを実現するためのデータセットを構築した。
14のビデオ-LLMによる実験では、現在のビデオ-LLMと、堅牢で一貫性のある推論の必要性の間に大きなギャップが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:44Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation [27.690736225683825]
動作推論を視覚合成から明確に分離する2段階のフレームワークであるMotion Dreamerを紹介する。
提案手法では,部分的ユーザ定義動作の効果的な統合を可能にするスパース・ツー・デンス動作表現であるインスタンスフローを導入している。
実験により、モーションドリーマーは既存の手法よりも優れており、より優れた動きの可視性と視覚的リアリズムを実現していることが示された。
論文 参考訳(メタデータ) (2024-11-30T17:40:49Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [55.48403691519395]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.78038233351758]
本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。
データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。
本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
論文 参考訳(メタデータ) (2024-05-15T21:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。