論文の概要: ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering
- arxiv url: http://arxiv.org/abs/2510.04514v1
- Date: Mon, 06 Oct 2025 06:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.701876
- Title: ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering
- Title(参考訳): ChartAgent: 複雑なチャート質問回答における視覚的接地推論のためのマルチモーダルエージェント
- Authors: Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Sumitra Ganesh, Manuela Veloso,
- Abstract要約: 本稿では,グラフの空間領域内で直接視覚的推論を行う新しいエージェントフレームワークであるChartAgentを紹介する。
我々の研究は、ツール強化マルチモーダルエージェントを用いたチャート理解のための視覚的根拠に基づく推論を初めて示すものである。
- 参考スコア(独自算出の注目度): 23.455587605758396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal LLMs have shown promise in chart-based visual question answering, but their performance declines sharply on unannotated charts, those requiring precise visual interpretation rather than relying on textual shortcuts. To address this, we introduce ChartAgent, a novel agentic framework that explicitly performs visual reasoning directly within the chart's spatial domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively decomposes queries into visual subtasks and actively manipulates and interacts with chart images through specialized actions such as drawing annotations, cropping regions (e.g., segmenting pie slices, isolating bars), and localizing axes, using a library of chart-specific vision tools to fulfill each subtask. This iterative reasoning process closely mirrors human cognitive strategies for chart comprehension. ChartAgent achieves state-of-the-art accuracy on the ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07% absolute gain overall and 17.31% on unannotated, numerically intensive queries. Furthermore, our analyses show that ChartAgent is (a) effective across diverse chart types, (b) achieve the highest scores across varying visual and reasoning complexity levels, and (c) serves as a plug-and-play framework that boosts performance across diverse underlying LLMs. Our work is among the first to demonstrate visually grounded reasoning for chart understanding using tool-augmented multimodal agents.
- Abstract(参考訳): 近年のマルチモーダルLCMでは、チャートベースの視覚的質問応答が約束されているが、その性能は、テキストのショートカットに頼るのではなく、正確に視覚的な解釈を必要とする非注釈のチャートで著しく低下している。
そこで我々は,グラフの空間領域内で直接視覚的推論を行う新しいエージェントフレームワークであるChartAgentを紹介する。
テキストチェーンの推論とは異なり、ChartAgentはクエリを視覚的なサブタスクに繰り返し分解し、各サブタスクを満たすためにチャート固有の視覚ツールのライブラリを使用して、アノテーション、トリミング領域(例えば、パイスライス、アイソレーションバー)、ローカライズ軸などの特別なアクションを通じて、チャートイメージを積極的に操作し、相互作用する。
この反復的推論プロセスは、チャート理解のための人間の認知戦略を密接に反映している。
ChartAgentはChartBenchとChartXのベンチマークで最先端の精度を達成し、従来の手法を16.07%まで上回り、注釈のない数値的なクエリでは17.31%となっている。
さらに、我々はChartAgentについて分析した。
(a) 様々なチャートタイプで有効である。
(b)視覚的・理性的な複雑さのレベルによって最高点を達成し、
c)は、様々な基盤となるLLMのパフォーマンスを向上するプラグイン・アンド・プレイのフレームワークとして機能する。
我々の研究は、ツール強化マルチモーダルエージェントを用いたチャート理解のための視覚的根拠に基づく推論を初めて示すものである。
関連論文リスト
- ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。
グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。
評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文 参考訳(メタデータ) (2025-05-25T23:17:32Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution [47.79080056618323]
グラフ画像内の支持証拠を識別し,きめ細かなバウンディングボックスの引用を提供するマルチエージェントフレームワークであるChartCitorを提案する。
このシステムは、LCMエージェントを編成して、チャートからテーブルへの抽出、回答の修正、テーブル拡張、事前フィルタリングと再ランク付けによるエビデンス検索、テーブルからチャートへのマッピングを行う。
論文 参考訳(メタデータ) (2025-02-03T02:00:51Z) - VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning [13.011899331656018]
VProChartは、CQA(Chart Question Answering)の課題に対処するために設計された新しいフレームワークである。
軽量な視覚知覚アライメントエージェント(VPAgent)と,プログラム型ソリューション推論アプローチを統合している。
VProChartは既存のメソッドよりも優れており、チャートによる理解と推論の能力を強調している。
論文 参考訳(メタデータ) (2024-09-03T07:19:49Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。