論文の概要: Diagnosing Causal Reasoning in Vision-Language Models via Structured Relevance Graphs
- arxiv url: http://arxiv.org/abs/2602.20878v1
- Date: Tue, 24 Feb 2026 13:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.760517
- Title: Diagnosing Causal Reasoning in Vision-Language Models via Structured Relevance Graphs
- Title(参考訳): 構造的関連グラフを用いた視覚言語モデルにおける因果推論の診断
- Authors: Dhita Putri Pratama, Soyeon Caren Han, Yihao Ding,
- Abstract要約: VLCG(Vision-Language Causal Graphs)は、因果関係のあるオブジェクト、属性、関係、シーングラウンドの仮定を明示的にエンコードする、構造化されたクエリ条件付き表現である。
本稿では, 因果属性, 因果推論, 質問応答のタスクを含む診断ベンチマークである ViLCaR と, グラフ対応評価指標について述べる。
現状のLVLM実験では、構造化された関連情報を注入することで、ゼロショットや標準のインコンテキスト学習と比較して、帰属や推論が大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 18.83755844366017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) achieve strong performance on visual question answering benchmarks, yet often rely on spurious correlations rather than genuine causal reasoning. Existing evaluations primarily assess the correctness of the answers, making it unclear whether failures arise from limited reasoning capability or from misidentifying causally relevant information. We introduce Vision-Language Causal Graphs (VLCGs), a structured, query-conditioned representation that explicitly encodes causally relevant objects, attributes, relations, and scene-grounded assumptions. Building on this representation, we present ViLCaR, a diagnostic benchmark comprising tasks for Causal Attribution, Causal Inference, and Question Answering, along with graph-aligned evaluation metrics that assess relevance identification beyond final answer accuracy. Experiments in state-of-the-art LVLMs show that injecting structured relevance information significantly improves attribution and inference consistency compared to zero-shot and standard in-context learning. These findings suggest that current limitations in LVLM causal reasoning stem primarily from insufficient structural guidance rather than a lack of reasoning capacity.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚的質問応答ベンチマークにおいて高いパフォーマンスを達成するが、真の因果推論ではなく、素早い相関に依存することが多い。
既存の評価は、答えの正しさを主に評価し、失敗が限定的な推論能力から生じるのか、因果関係の情報を誤認して生じるのかを不明瞭にする。
VLCG(Vision-Language Causal Graphs)は、因果関係のあるオブジェクト、属性、関係、シーングラウンドの仮定を明示的にエンコードする、構造化されたクエリ条件付き表現である。
この表現に基づいて, 因果属性, 因果推論, 質問回答のタスクからなる診断ベンチマークである ViLCaR と, 最終回答精度以上の関連性同定を評価するグラフ対応評価指標を提案する。
現状のLVLM実験では、構造化された関連情報を注入することで、ゼロショットや標準のインコンテキスト学習と比較して、帰属性と推論の一貫性が著しく向上することが示された。
これらの結果から,LVLM因果推論における現在の限界は主に推論能力の欠如よりも構造的ガイダンスが不十分であることが示唆された。
関連論文リスト
- CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - Uncovering Hidden Correctness in LLM Causal Reasoning via Symbolic Verification [56.51953062869371]
DoVerifier は、因果表現が与えられた因果グラフから導出可能であるかどうかをdo-calculus と probability theory の規則を用いてチェックする記号検証器である。
因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果
論文 参考訳(メタデータ) (2026-01-29T03:22:58Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning [26.671128120554457]
因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。
既存のベンチマークには、しばしば推論の質問が混在している。
VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
論文 参考訳(メタデータ) (2025-06-01T07:17:46Z) - The Third Pillar of Causal Analysis? A Measurement Perspective on Causal Representations [23.129188507631284]
因果推論と発見は、実世界のデータの複雑さ、ノイズ、高次元性のためにしばしば困難に直面する。
学習した表現を因果的下流タスクに役立てるものと、それらをどのように評価するかは、まだよく理解されていない。
論文 参考訳(メタデータ) (2025-05-23T10:25:17Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Cause and Effect: Can Large Language Models Truly Understand Causality? [1.2334534968968969]
本研究では,CARE CA(Content Aware Reasoning Enhancement with Counterfactual Analysis)フレームワークという新しいアーキテクチャを提案する。
提案するフレームワークには,ConceptNetと反ファクト文を備えた明示的な因果検出モジュールと,大規模言語モデルによる暗黙的な因果検出が組み込まれている。
ConceptNetの知識は、因果的発見、因果的識別、反事実的推論といった複数の因果的推論タスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:02:14Z) - Everything Has a Cause: Leveraging Causal Inference in Legal Text
Analysis [62.44432226563088]
因果推論は変数間の因果関係を捉えるプロセスである。
本論文では,事実記述から因果グラフを構築するための新たなグラフベース因果推論フレームワークを提案する。
GCIに含まれる因果知識を強力なニューラルネットワークに効果的に注入することで、パフォーマンスと解釈性が向上します。
論文 参考訳(メタデータ) (2021-04-19T16:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。