論文の概要: Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2511.13853v1
- Date: Mon, 17 Nov 2025 19:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.75818
- Title: Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark
- Title(参考訳): 世界シミュレーターは推論可能か?Gen-ViRe:生成的ビジュアル推論ベンチマーク
- Authors: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang,
- Abstract要約: ビデオ生成モデルは、Chain-of-Frames (CoF)推論を通じて、潜在的な世界シミュレータとして登場した。
既存のベンチマークは、忠実さやアライメントに重点を置いており、CoFの推論を評価していない。
我々は,認知科学と実世界のAI応用を基盤としたフレームワークであるGen-ViReを紹介する。
- 参考スコア(独自算出の注目度): 48.02995109011304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.
- Abstract(参考訳): Chain-of-Thought (CoT) は LLM において洗練された記号的推論を可能にするが、離散テキストに限られており、現実世界の連続的、物理学的に支配されるダイナミクスをシミュレートすることはできない。
最近のビデオ生成モデルは、Chain-of-Frames (CoF)推論による潜在的な世界シミュレータとして登場している。
既存のベンチマークは忠実さや整合性を重視しており、CoF推論を評価しておらず、そのため、多段階計画、アルゴリズム論理、抽象パターン外挿ではコア認知能力を測定することができない。
この評価は、モデル能力の体系的な理解と改善のための原則的なガイダンスを妨げる。
Gen-ViRe (Generative Visual Reasoning Benchmark)は認知科学と現実のAIアプリケーションに基づくフレームワークで、CoF推論を知覚論理から抽象計画まで、24のサブタスクに分解する。
マルチソースデータキュレーション、最小限のプロンプトプロトコル、詳細な基準によるハイブリッドVLM支援評価を通じて、Gen-ViReは、ビデオモデルを推論として初めて定量的に評価する。
我々のSOTAシステムにおける実験により、目覚しい視覚的品質と実際の推論深度の間にはかなりの相違が示され、真の世界シミュレータを進化させるためのベースラインと診断ツールが確立された。
関連論文リスト
- LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。
本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T09:43:17Z) - Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。
我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。
最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文 参考訳(メタデータ) (2025-05-30T03:48:59Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Enhancing Zero-Shot Image Recognition in Vision-Language Models through Human-like Concept Guidance [41.6755826072905]
ゼロショット画像認識タスクでは、人間は目に見えないカテゴリを分類する際、顕著な柔軟性を示す。
既存の視覚言語モデルは、しばしば準最適プロンプトエンジニアリングのため、現実世界のアプリケーションでは性能が劣る。
これらの問題に対処するために,概念誘導型人間ライクなベイズ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-20T06:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。