論文の概要: Causal Scaffolding for Physical Reasoning: A Benchmark for Causally-Informed Physical World Understanding in VLMs
- arxiv url: http://arxiv.org/abs/2606.05966v1
- Date: Thu, 04 Jun 2026 10:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.713642
- Title: Causal Scaffolding for Physical Reasoning: A Benchmark for Causally-Informed Physical World Understanding in VLMs
- Title(参考訳): 物理推論のための因果認識:VLMにおける因果的インフォームド物理世界理解のためのベンチマーク
- Authors: Tianyi Tang, Zhuoyi Lin, Zeyu Feng, Tianyi Ma, Yew-Soon Ong, Ivor Tsang, Haiyan Yin,
- Abstract要約: CausalPhysは、知覚、予測、介入、目標指向という4つの領域にまたがる、ビデオと画像に基づく3000以上の慎重にキュレートされた質問のベンチマークである。
各質問は、専門家がアノテートした因果グラフがオブジェクト・属性・イベントの依存関係をキャプチャし、因果理解の解釈可能かつきめ細かい評価を可能にする。
これに基づいて、モデルの連鎖推論が正しい因果関係とどの程度うまく一致しているかを定量的に測定する因果グラフ基底計量を定式化する。
本稿では,CRFT(Causal Rationale-informed Fine-Tuning)を提案する。
- 参考スコア(独自算出の注目度): 49.55219052565761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and reasoning about the physical world is the foundation of intelligent behavior, yet state-of-the-art vision-language models (VLMs) still fail at causal physical reasoning, often producing plausible but incorrect answers. To address this gap, we introduce CausalPhys, a benchmark of over 3,000 carefully curated video- and image-based questions spanning four domains: Perception, Anticipation, Intervention, and Goal Orientation. Each question is paired with an expert-annotated causal graph capturing object-attribute-event dependencies, enabling interpretable and fine-grained evaluation of causal understanding. Building on this, we formulate a causal-graph-grounded metric that quantitatively measures how well a model's chain-of-thought reasoning aligns with the correct causal relations, moving beyond answer-only accuracy and enabling systematic diagnosis of VLMs' causal reasoning failures. Using this metric, we conduct a comprehensive analysis of leading VLMs, revealing systematic gaps in capturing causal dependencies and underscoring the need for causality-aware learning. To address these limitations, we further propose Causal Rationale-informed Fine-Tuning (CRFT), which explicitly aligns VLM reasoning with causal structures. Extensive experiments demonstrate that CRFT substantially enhances both reasoning accuracy and interpretability across multiple model backbones. By unifying dataset curation, causal evaluation, and causality-informed learning, CausalPhys establishes a strong foundation for advancing modern VLMs toward causally grounded physical reasoning.
- Abstract(参考訳): 物理的世界に対する理解と推論は知的な行動の基礎であるが、最先端の視覚言語モデル(VLM)は因果的物理的推論に失敗し、しばしば妥当だが誤った答えを生み出す。
このギャップに対処するため、私たちはCausalPhysという、4つの領域(知覚、予測、介入、目標指向)にまたがる、3000以上の慎重にキュレートされたビデオおよび画像ベースの質問のベンチマークを紹介した。
各質問は、専門家がアノテートした因果グラフがオブジェクト・属性・イベントの依存関係をキャプチャし、因果理解の解釈可能かつきめ細かい評価を可能にする。
これに基づいて、モデルの連鎖推論が正しい因果関係とどの程度うまく一致しているかを定量的に測定し、応答のみの精度を超えてVLMの因果推論失敗の体系的診断を可能にする因果グラフ基底計量を定式化する。
この指標を用いて,本研究は,因果関係を捉え,因果関係を学習する必要性を浮き彫りにした,先進VLMの包括的分析を行う。
これらの制約に対処するため、我々はさらに、VLM推論と因果構造を明示的に整合させる、Causal Rationale-informed Fine-Tuning (CRFT)を提案する。
広範囲な実験により、CRFTは複数のモデルバックボーンにわたる推論精度と解釈可能性の両方を大幅に向上させることが示された。
CausalPhysは、データセットのキュレーション、因果評価、因果的インフォームドラーニングを統一することにより、因果的物理的推論に向けて近代的なVLMを前進させる強力な基盤を確立する。
関連論文リスト
- Structured Causal Video Reasoning via Multi-Objective Alignment [102.61829546891543]
そこで本稿では,解析段階に先立って,構造化イベントファクト (Structured Event Facts) と命名した,健全なイベントとその因果関係のコンパクトな表現を提案する。
この構造化された事前は、簡潔で因果的根拠のある推論を促進するための明示的な制約として機能する。
我々はCausalFact-60Kと4段階のトレーニングパイプラインを紹介し、事実のアライメント、フォーマットのウォームスタート、思考のウォームスタート、強化学習に基づくポストトレーニングを含む。
論文 参考訳(メタデータ) (2026-04-06T04:49:30Z) - Diagnosing Causal Reasoning in Vision-Language Models via Structured Relevance Graphs [18.83755844366017]
VLCG(Vision-Language Causal Graphs)は、因果関係のあるオブジェクト、属性、関係、シーングラウンドの仮定を明示的にエンコードする、構造化されたクエリ条件付き表現である。
本稿では, 因果属性, 因果推論, 質問応答のタスクを含む診断ベンチマークである ViLCaR と, グラフ対応評価指標について述べる。
現状のLVLM実験では、構造化された関連情報を注入することで、ゼロショットや標準のインコンテキスト学習と比較して、帰属や推論が大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-24T13:20:07Z) - CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment [0.1547863211792184]
因果学習は因果推論を行う能力を開発するための認知過程である。
このプロセスは、因果関係の錯覚のような誤りや偏見がちである。
この認知バイアスは多くの社会的問題を解決するために提案されている。
論文 参考訳(メタデータ) (2025-10-15T18:09:00Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Context-Aware Reasoning On Parametric Knowledge for Inferring Causal Variables [49.31233968546582]
本稿では,部分因果グラフの完成を目的とした新しいベンチマークを提案する。
原因と効果の間のバックドア変数を仮説化するLLMの強い能力を示す。
固定された関連性の単純な記憶とは異なり、我々のタスクはグラフ全体のコンテキストに応じてLCMを推論する必要がある。
論文 参考訳(メタデータ) (2024-09-04T10:37:44Z) - Cause and Effect: Can Large Language Models Truly Understand Causality? [1.2334534968968969]
本研究では,CARE CA(Content Aware Reasoning Enhancement with Counterfactual Analysis)フレームワークという新しいアーキテクチャを提案する。
提案するフレームワークには,ConceptNetと反ファクト文を備えた明示的な因果検出モジュールと,大規模言語モデルによる暗黙的な因果検出が組み込まれている。
ConceptNetの知識は、因果的発見、因果的識別、反事実的推論といった複数の因果的推論タスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。