論文の概要: The Abstraction Gap in Vision-Language Causal Reasoning
- arxiv url: http://arxiv.org/abs/2605.28779v1
- Date: Wed, 27 May 2026 17:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.25289
- Title: The Abstraction Gap in Vision-Language Causal Reasoning
- Title(参考訳): 視覚言語因果推論における抽象ギャップ
- Authors: Chinh Hoang, Mohammad Rashedul Hasan,
- Abstract要約: 視覚言語モデル (VLMs) は、流動的な因果説明を生成する。
現在の評価では、言語的妥当性と忠実な因果推論を区別することはできない。
これらの特性を分離する双対プローブ手法を提案する。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) generate fluent causal explanations, but current evaluations cannot distinguish linguistic plausibility from faithful causal reasoning. We introduce a dual-probe methodology that isolates these properties. The Text-Only Probe measures linguistic quality. The Chain-Text Probe requires models to first generate explicit causal chains. The Abstraction Gap (AG) metric quantifies the normalized performance difference. Evaluating eight VLMs on CAGE (Causal Abstraction Gap Evaluation), a benchmark of 49,500 questions across 5,500 images spanning Pearl's causal hierarchy, we find seven models exhibit AG exceeding 0.50 with text scores of 6--8 but chain scores below 2.5. Fine-tuning on 45,000 chain-annotated examples fails to close the gap. However, one model achieves near-zero AG. The capability exists within current VLM architectures and depends on pretraining and architectural choices. CAGE provides a diagnostic tool for assessing faithful causal reasoning in VLMs.
- Abstract(参考訳): 視覚言語モデル (VLMs) は、流動的な因果的説明を生成するが、現在の評価では、言語的妥当性と忠実な因果的推論を区別することはできない。
これらの特性を分離する双対プローブ手法を提案する。
Text-Only Probeは言語品質を測定します。
Chain-Text Probeは、まず明確な因果連鎖を生成するモデルを必要とする。
抽象ギャップ(AG)メトリックは、正規化された性能差を定量化する。
CAGE上の8つのVLMの評価(Causal Abstraction Gap Evaluation)は、Pearlの因果階層にまたがる5500のイメージにわたる49,500の質問のベンチマークである。
45,000のチェーンアノテート例の微調整は、ギャップを埋めることに失敗する。
しかし、1つのモデルは、ほぼゼロのAGを達成する。
この機能は現在のVLMアーキテクチャ内に存在し、事前訓練とアーキテクチャの選択に依存する。
CAGEは、VLMの忠実な因果推論を評価するための診断ツールを提供する。
関連論文リスト
- A Hybrid Vision-Language Architecture for Automated Defect Reasoning and Report Generation in Industrial Inspection [0.42970700836450487]
本稿では,風力タービン羽根試験用分離・エッジ展開可能なパイプラインについて述べる。
The EyesはY26-x-obb指向のバウンディングボックスで、データセットネイティブの解像度で欠陥をローカライズする。
ブリッジは決定論的でパラメータフリーな符号化モジュールであり、検出された各バウンディングボックスをグリッド参照トークンにマップする。
論文 参考訳(メタデータ) (2026-05-26T04:27:38Z) - METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models [61.33372454250959]
コンテキスト因果推論は、大規模言語モデルにとって重要なが難しい能力である。
既存のベンチマークでは、コンテキスト整合性を保証するか、完全な因果階層をカバーすることができない。
私たちはMETERの先駆者であり、因果はしごの3つのレベルすべてにわたってLSMを体系的にベンチマークしました。
論文 参考訳(メタデータ) (2026-04-13T14:07:11Z) - GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations [19.262982037123447]
視覚言語モデル(VLM)は、他の視覚的推論タスクよりも精度がかなり低いため、タスクのカウントにおいて持続的な幻覚を示す。
物体検出モデルから空間的接地を明示的に拡張して幻覚を緩和するフレームワークであるGroundCountを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:04:30Z) - TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models [0.0]
TACIT Benchmarkは、6つの推論領域にわたる10のタスクからなるプログラム的なビジュアル推論ベンチマークである。
このベンチマークでは、モデルが決定論的コンピュータビジョンパイプラインを通じて検証されたソリューションイメージを生成する必要がある生成トラックと、構造的に妥当なニアミストラクタを備えた5方向の多重選択を提供する識別トラックの2トラック評価が提供されている。
論文 参考訳(メタデータ) (2026-02-27T11:45:26Z) - MMErroR: A Benchmark for Erroneous Reasoning in Vision-Language Models [29.830224745428566]
2,013個のサンプルを1つのコヒーレントな推論誤差に埋め込んだベンチマークであるMMErroRを提案する。
MMErroRは、回答の正しさに焦点を当てた既存のベンチマークとは異なり、プロセスレベル、エラー中心の評価をターゲットにしている。
最良モデル(Gemini-3.0-Pro)でさえ、66.47%のケースでエラーを分類する。
論文 参考訳(メタデータ) (2026-01-06T17:45:26Z) - Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models [0.0]
大規模言語モデル(LLM)は、潜在空間内と外部の両方で推論計算を行うことができる。
本研究では,異なる領域におけるモデル内部推論を定量化するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-14T18:15:27Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。