論文の概要: InfoCausalQA:Can Models Perform Non-explicit Causal Reasoning Based on Infographic?
- arxiv url: http://arxiv.org/abs/2508.06220v1
- Date: Fri, 08 Aug 2025 11:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.206353
- Title: InfoCausalQA:Can Models Perform Non-explicit Causal Reasoning Based on Infographic?
- Title(参考訳): InfoCausalQA:Can Models Perform Non-explicit Causal Reasoning Based on Infographic?
- Authors: Keummin Ka, Junhyeong Park, Jahyun Jeon, Youngjae Yu,
- Abstract要約: 本稿ではインフォグラフィックに基づく因果推論を評価するための新しいベンチマークであるInfoCausalQAを紹介する。
第1タスクは推論された数値傾向に基づく定量的因果推論に焦点を当て,第2タスクは5種類の因果関係を含む意味因果推論を対象とする。
実験の結果,現在のビジョン・ランゲージモデルでは,計算的推論の能力に限界があり,意味的因果推論の能力にも限界があることが明らかとなった。
- 参考スコア(独自算出の注目度): 14.443840118369176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have demonstrated impressive capabilities in perception and reasoning. However, the ability to perform causal inference -- a core aspect of human cognition -- remains underexplored, particularly in multimodal settings. In this study, we introduce InfoCausalQA, a novel benchmark designed to evaluate causal reasoning grounded in infographics that combine structured visual data with textual context. The benchmark comprises two tasks: Task 1 focuses on quantitative causal reasoning based on inferred numerical trends, while Task 2 targets semantic causal reasoning involving five types of causal relations: cause, effect, intervention, counterfactual, and temporal. We manually collected 494 infographic-text pairs from four public sources and used GPT-4o to generate 1,482 high-quality multiple-choice QA pairs. These questions were then carefully revised by humans to ensure they cannot be answered based on surface-level cues alone but instead require genuine visual grounding. Our experimental results reveal that current VLMs exhibit limited capability in computational reasoning and even more pronounced limitations in semantic causal reasoning. Their significantly lower performance compared to humans indicates a substantial gap in leveraging infographic-based information for causal inference. Through InfoCausalQA, we highlight the need for advancing the causal reasoning abilities of multimodal AI systems.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の進歩は、知覚と推論における印象的な能力を示している。
しかし、人間の認知の中核的な側面である因果推論を行う能力は、特にマルチモーダルな設定において、未調査のままである。
本研究では,構造化された視覚データとテキストコンテキストを組み合わせたインフォグラフィックに基づく因果推論評価のための新しいベンチマークであるInfoCausalQAを紹介する。
第1タスクは、推定された数値傾向に基づく定量的因果推論に焦点を当て、第2タスクは、5種類の因果関係(因果関係、効果、介入、反事実的、時間的関係)を含む意味因果推論を対象とする。
4つの公開ソースから494のインフォグラフィックテキストペアを手動で収集し,GPT-4oを用いて1,482の高品質マルチチョイスQAペアを生成した。
これらの質問は人間によって慎重に修正され、表面レベルの手がかりだけでは答えられず、代わりに真の視覚的根拠を必要とする。
実験結果から,現在のVLMは計算的推論の能力に限界があり,意味的因果推論の能力にも限界があることが明らかとなった。
その性能は人間に比べて著しく低いが、因果推論にインフォグラフィックベースの情報を活用することには大きなギャップがある。
InfoCausalQAを通じて、マルチモーダルAIシステムの因果推論能力の向上の必要性を強調した。
関連論文リスト
- Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning [26.671128120554457]
因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。
既存のベンチマークには、しばしば推論の質問が混在している。
VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
論文 参考訳(メタデータ) (2025-06-01T07:17:46Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - CAUSAL3D: A Comprehensive Benchmark for Causal Learning from Visual Data [10.435321637846142]
我々は、構造化されたデータ(テーブル)と対応する視覚表現(画像)を統合する新しいベンチマークであるtextsctextbfCausal3Dを導入し、因果推論を評価する。
Causal3Dは、多様な因果関係、ビュー、背景をキャプチャする19の3Dシーンデータセットで構成されている。
論文 参考訳(メタデータ) (2025-03-06T03:40:01Z) - CELLO: Causal Evaluation of Large Vision-Language Models [9.928321287432365]
因果推論は人間の知性の基本であり、現実世界の環境における効果的な意思決定に不可欠である。
我々は,人間と物体の相互作用を含む因果関係の微細で統一的な定義を導入する。
我々は,4段階の因果関係に関する14,094の因果関係質問からなる新しいデータセットであるCellOを構築した。
論文 参考訳(メタデータ) (2024-06-27T12:34:52Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - A Song of (Dis)agreement: Evaluating the Evaluation of Explainable
Artificial Intelligence in Natural Language Processing [7.527234046228323]
我々は、注意に基づく説明のための評価指標としてランク相関を用いるのをやめるべきであると主張している。
注意に基づく説明は,最近の特徴帰属法と強く相関しないことがわかった。
論文 参考訳(メタデータ) (2022-05-09T21:07:39Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。