論文の概要: RADAR: A Reasoning-Guided Attribution Framework for Explainable Visual Data Analysis
- arxiv url: http://arxiv.org/abs/2508.16850v1
- Date: Sat, 23 Aug 2025 00:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.211539
- Title: RADAR: A Reasoning-Guided Attribution Framework for Explainable Visual Data Analysis
- Title(参考訳): RADAR: 説明可能なビジュアルデータ分析のための推論ガイドによる属性フレームワーク
- Authors: Anku Rani, Aparna Garimella, Apoorv Saxena, Balaji Vasan Srinivasan, Paul Pu Liang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、自動視覚データ分析のための有望な機能を提供する。
しかし、視覚的データのどの部分が結論を知らせるかを可視化することができない。
MLLMの能力を評価するための第一歩を踏み出します。
- 参考スコア(独自算出の注目度): 37.42273691073023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data visualizations like charts are fundamental tools for quantitative analysis and decision-making across fields, requiring accurate interpretation and mathematical reasoning. The emergence of Multimodal Large Language Models (MLLMs) offers promising capabilities for automated visual data analysis, such as processing charts, answering questions, and generating summaries. However, they provide no visibility into which parts of the visual data informed their conclusions; this black-box nature poses significant challenges to real-world trust and adoption. In this paper, we take the first major step towards evaluating and enhancing the capabilities of MLLMs to attribute their reasoning process by highlighting the specific regions in charts and graphs that justify model answers. To this end, we contribute RADAR, a semi-automatic approach to obtain a benchmark dataset comprising 17,819 diverse samples with charts, questions, reasoning steps, and attribution annotations. We also introduce a method that provides attribution for chart-based mathematical reasoning. Experimental results demonstrate that our reasoning-guided approach improves attribution accuracy by 15% compared to baseline methods, and enhanced attribution capabilities translate to stronger answer generation, achieving an average BERTScore of $\sim$ 0.90, indicating high alignment with ground truth responses. This advancement represents a significant step toward more interpretable and trustworthy chart analysis systems, enabling users to verify and understand model decisions through reasoning and attribution.
- Abstract(参考訳): チャートのようなデータの視覚化は、フィールドをまたいだ定量的分析と意思決定の基本的なツールであり、正確な解釈と数学的推論を必要とする。
MLLM(Multimodal Large Language Models)の出現は、グラフの処理、質問への回答、要約の生成など、視覚データの自動分析に有望な機能を提供する。
このブラックボックスの性質は、現実世界の信頼と採用に重大な課題をもたらす。
本稿では,MLLMの能力を評価するための最初の大きな一歩として,モデル回答を正当化するグラフやグラフの特定の領域を強調することにより,それらの推論過程を評価・拡張する。
この目的のために、RADARは17,819の多様なサンプル、チャート、質問、推論ステップ、帰属アノテーションからなるベンチマークデータセットを半自動で取得する手法である。
また,グラフに基づく数学的推論に寄与する手法を提案する。
実験結果から,提案手法はベースライン手法と比較して帰属精度を15%向上し,帰属能力の向上は回答生成の強化に寄与し,平均BERTScoreが0.90$\sim$となることが示唆された。
この進歩は、より解釈可能で信頼性の高いチャート分析システムへの重要な一歩であり、ユーザーは推論と帰属を通じてモデル決定を検証し理解することができる。
関連論文リスト
- Beyond Description: A Multimodal Agent Framework for Insightful Chart Summarization [18.33134893463544]
本稿では,グラフ画像から直接深い洞察を明らかにするためのマルチエージェント・フレームワークを提案する。
適切なベンチマークの欠如を克服するため、我々はChartSummInsightsを紹介した。
論文 参考訳(メタデータ) (2026-02-21T06:17:37Z) - Combating Spurious Correlations in Graph Interpretability via Self-Reflection [4.81017678027464]
解釈可能なグラフ学習は、機械学習において人気のある研究トピックである。
最も難しいのは、ICLR 2022で導入されたSpurious-Motifベンチマークである。
本稿では,既存の解釈可能なグラフ学習手法と統合可能な自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-16T06:31:16Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。
さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文 参考訳(メタデータ) (2025-03-06T05:08:40Z) - RealCQA-V2 : Visual Premise Proving A Manual COT Dataset for Charts [2.9201864249313383]
グラフ質問応答のプロセスを洗練するための新しいタスクであるVisual Premise Provingを紹介する。
この手法は従来の精度に基づく評価手法から逸脱したものである。
データ検索とグラフの構造的理解の両方に習熟性を示すモデルが提案される。
論文 参考訳(メタデータ) (2024-10-29T19:32:53Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。