論文の概要: CausalSpatial: A Benchmark for Object-Centric Causal Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2601.13304v1
- Date: Mon, 19 Jan 2026 18:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.018134
- Title: CausalSpatial: A Benchmark for Object-Centric Causal Spatial Reasoning
- Title(参考訳): CausalSpatial: オブジェクト中心の因果空間推論のためのベンチマーク
- Authors: Wenxin Ma, Chenlong Wang, Ruisheng Yuan, Hao Chen, Nanru Dai, S. Kevin Zhou, Yijun Yang, Alan Yuille, Jieneng Chen,
- Abstract要約: 本稿では,モデルが物体の動きの結果を予測できるかどうかを評価する診断ベンチマークCausalSpatialを紹介する。
ヒトは84%、GPT-5は54%である。
仮説力学のビデオを生成することによってシミュレーションプロセスを外部化するフレームワークであるCausal Object World Model (COW)を提案する。
- 参考スコア(独自算出の注目度): 39.54571408131219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can look at a static scene and instantly predict what happens next -- will moving this object cause a collision? We call this ability Causal Spatial Reasoning. However, current multimodal large language models (MLLMs) cannot do this, as they remain largely restricted to static spatial perception, struggling to answer "what-if" questions in a 3D scene. We introduce CausalSpatial, a diagnostic benchmark evaluating whether models can anticipate consequences of object motions across four tasks: Collision, Compatibility, Occlusion, and Trajectory. Results expose a severe gap: humans score 84% while GPT-5 achieves only 54%. Why do MLLMs fail? Our analysis uncovers a fundamental deficiency: models over-rely on textual chain-of-thought reasoning that drifts from visual evidence, producing fluent but spatially ungrounded hallucinations. To address this, we propose the Causal Object World model (COW), a framework that externalizes the simulation process by generating videos of hypothetical dynamics. With explicit visual cues of causality, COW enables models to ground their reasoning in physical reality rather than linguistic priors. We make the dataset and code publicly available here: https://github.com/CausalSpatial/CausalSpatial
- Abstract(参考訳): 人間は静的なシーンを見て、次に何が起こるかすぐに予測できます。
これを因果空間推論(Causal spatial Reasoning)と呼ぶ。
しかし、現在のマルチモーダル大言語モデル(MLLM)は、静的空間認識に大きく制限されており、3Dシーンで「何」の疑問に答えることに苦慮しているため、これを行うことができない。
CausalSpatialは、モデルが4つのタスク(衝突、適合性、閉塞、軌道)でオブジェクトの動きの結果を予測できるかどうかを評価する診断ベンチマークである。
ヒトは84%、GPT-5は54%である。
なぜMLLMは失敗するのか?
私たちの分析では、視覚的な証拠から流れ落ちて、流動的だが空間的にも根拠のない幻覚を生み出す、テキストの連鎖的推論を過度にモデル化する、基本的な欠陥が明らかになりました。
これを解決するために,仮説力学のビデオを生成することによってシミュレーションプロセスを外部化するフレームワークであるCausal Object World Model (COW)を提案する。
因果関係の明確な視覚的手がかりにより、COWはモデルが言語的先行よりも物理的な現実に推論を基礎付けることができる。
データセットとコードはここで公開しています。
関連論文リスト
- Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.00111584020834]
我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。
私たちは、人気の高いVeo-3に注力しています。
我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
論文 参考訳(メタデータ) (2025-10-30T17:59:55Z) - ChainReaction! Structured Approach with Causal Chains as Intermediate Representations for Improved and Explainable Causal Video Question Answering [13.950975794272603]
応答生成から因果推論を明示的に分離する新しい枠組みを提案する。
人間の認知モデルにインスパイアされた構造化因果関係は、低レベルの映像コンテンツを高レベルの因果推論で橋渡しする。
また,因果性指向のキャプション評価指標であるCauCoを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:10:53Z) - Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。
我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。
最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文 参考訳(メタデータ) (2025-05-30T03:48:59Z) - Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models [12.31624700475112]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて高い性能を示す。
それらはしばしば、対象の幻覚に悩まされる - 入力と矛盾する、あるいは完全に欠落している物体の記述を生成する。
因果的介入を通じて幻覚を緩和する因果的非絡み合いの枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:53:00Z) - Do Large Language Models Reason Causally Like Us? Even Better? [7.749713014052951]
大きな言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示している。
我々は,コライダーグラフに基づくタスクを用いて,ヒトの因果推論と4つのLDMを比較した。
論文 参考訳(メタデータ) (2025-02-14T15:09:15Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。