論文の概要: MMGR: Multi-Modal Generative Reasoning
- arxiv url: http://arxiv.org/abs/2512.14691v1
- Date: Tue, 16 Dec 2025 18:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.843338
- Title: MMGR: Multi-Modal Generative Reasoning
- Title(参考訳): MMGR:マルチモーダルな生成推論
- Authors: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu,
- Abstract要約: 本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。
MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。
主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
- 参考スコア(独自算出の注目度): 92.69577934578946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.
- Abstract(参考訳): ビデオ基礎モデルは視覚的にリアルで時間的に一貫性のあるコンテンツを生成するが、世界シミュレーターとしての信頼性は、物理的、論理的、空間的制約を捉えるかどうかによって異なる。
Frechet Video Distance (FVD)のような既存のメトリクスは、因果性、物理、グローバルな一貫性の違反など、知覚的品質を強調し、推論の失敗を見落としている。
MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)は,物理,論理,3次元空間,2次元空間,テンポラルの5つの推論能力に基づく基本的評価フレームワークである。
MMGRは, 抽象推論 (ARC-AGI, Sudoku), Embodied Navigation (現実世界の3Dナビゲーションとローカライゼーション), Physical Commonsense (スポーツと作曲の相互作用) の3分野にわたる生成的推論を評価する。
MMGRは、ビデオ生成と画像生成の両方の全体的正しさを必要とする、きめ細かいメトリクスを適用している。
主要映像モデル (Veo-3, Sora-2, Wan-2.2) と画像モデル (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image) をベンチマークし, ドメイン間での性能差が強いことを示した。
モデルは物理コモンセンスのタスクで適度に成功したが、抽象推論(ARC-AGIでは10%以下)では不十分であり、エンボディ環境での長期空間計画に苦戦している。
我々の分析は、知覚データへの過度な依存、世界的状態の整合性の弱さ、因果的正当性に対する視覚的妥当性に報いる目的など、現在のモデルにおける重要な制限を強調している。
MMGRは、統一的な診断ベンチマークと、推論を意識した生成世界モデルへのパスを提供する。
関連論文リスト
- Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark [48.02995109011304]
ビデオ生成モデルは、Chain-of-Frames (CoF)推論を通じて、潜在的な世界シミュレータとして登場した。
既存のベンチマークは、忠実さやアライメントに重点を置いており、CoFの推論を評価していない。
我々は,認知科学と実世界のAI応用を基盤としたフレームワークであるGen-ViReを紹介する。
論文 参考訳(メタデータ) (2025-11-17T19:11:39Z) - Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.00111584020834]
我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。
私たちは、人気の高いVeo-3に注力しています。
我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
論文 参考訳(メタデータ) (2025-10-30T17:59:55Z) - Clone Deterministic 3D Worlds with Geometrically-Regularized World Models [16.494281967592745]
エージェントが複雑でダイナミックな設定で効果的に思考、計画、理性を実現するためには、世界モデルが不可欠である。
急速な進歩にもかかわらず、現在の世界モデルは、長い地平線上で不安定で劣化している。
本稿では, 自然な知覚軌道に沿った連続点が潜在表現空間に近接しているような幾何学的正規化世界モデル(GRWM)を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:56:43Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [55.48403691519395]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。