論文の概要: ChartAgent: A Chart Understanding Framework with Tool Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2512.14040v1
- Date: Tue, 16 Dec 2025 03:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.563246
- Title: ChartAgent: A Chart Understanding Framework with Tool Integrated Reasoning
- Title(参考訳): ChartAgent: ツール統合推論を備えたチャート理解フレームワーク
- Authors: Boran Wang, Xinming Wang, Yi Chen, Xiang Li, Jian Xu, Jing Yuan, Chenglin Liu,
- Abstract要約: ツール統合推論に基づくチャート理解フレームワークであるChartAgentを紹介する。
人間の認識にインスパイアされたChartAgentは、複雑なチャート解析を可観測で再生可能な一連のステップに分解する。
スパースアノテーション設定下ではChartAgentが大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 26.725654222717335
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With their high information density and intuitive readability, charts have become the de facto medium for data analysis and communication across disciplines. Recent multimodal large language models (MLLMs) have made notable progress in automated chart understanding, yet they remain heavily dependent on explicit textual annotations and the performance degrades markedly when key numerals are absent. To address this limitation, we introduce ChartAgent, a chart understanding framework grounded in Tool-Integrated Reasoning (TIR). Inspired by human cognition, ChartAgent decomposes complex chart analysis into a sequence of observable, replayable steps. Supporting this architecture is an extensible, modular tool library comprising more than a dozen core tools, such as keyelement detection, instance segmentation, and optical character recognition (OCR), which the agent dynamically orchestrates to achieve systematic visual parsing across diverse chart types. Leveraging TIRs transparency and verifiability, ChartAgent moves beyond the black box paradigm by standardizing and consolidating intermediate outputs into a structured Evidence Package, providing traceable and reproducible support for final conclusions. Experiments show that ChartAgent substantially improves robustness under sparse annotation settings, offering a practical path toward trustworthy and extensible systems for chart understanding.
- Abstract(参考訳): 高い情報密度と直感的な可読性により、チャートはデータ分析と規律間のコミュニケーションの事実上の媒体となっている。
最近のマルチモーダル大言語モデル(MLLM)は、自動チャート理解において顕著な進歩を遂げているが、それらは明示的なテキストアノテーションに大きく依存しており、キー数値が欠落している場合には性能が著しく低下する。
この制限に対処するため,ツール・インテグレート・推論(TIR)に基づくチャート理解フレームワークであるChartAgentを紹介した。
人間の認識にインスパイアされたChartAgentは、複雑なチャート解析を可観測で再生可能な一連のステップに分解する。
このアーキテクチャのサポートは、キー要素検出、インスタンスセグメンテーション、光学文字認識(OCR)など、12以上のコアツールからなる拡張可能なモジュラーツールライブラリであり、エージェントが動的にオーケストレーションして、さまざまなチャートタイプにわたる体系的な視覚的解析を実現する。
TIRの透明性と検証可能性を活用して、ChartAgentは中間出力を構造化されたエビデンスパッケージに標準化して統合することでブラックボックスパラダイムを超えて、最終的な結論をトレース可能で再現可能なサポートを提供する。
実験により、ChartAgentは疎アノテーション設定下での堅牢性を大幅に改善し、チャート理解のための信頼性と拡張性を備えたシステムへの実践的なパスを提供することが示された。
関連論文リスト
- ChartAnchor: Chart Grounding with Structural-Semantic Fidelity [19.798612765001746]
チャートグラウンド(英: Chart grounding)とは、チャートの視覚的外観と構造的意味論の間の双方向のアライメントを指す。
ChartAnchorは、8k以上のチャートテーブルコードトリプルのベンチマークである。
マルチレベル評価フレームワークは、セマンティックバリデーション、スタイリスティック分析、知覚メトリクスを統合して、構造的およびコンテンツレベルの正確性を評価する。
論文 参考訳(メタデータ) (2025-11-30T18:28:09Z) - ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering [23.455587605758396]
本稿では,グラフの空間領域内で直接視覚的推論を行う新しいエージェントフレームワークであるChartAgentを紹介する。
我々の研究は、ツール強化マルチモーダルエージェントを用いたチャート理解のための視覚的根拠に基づく推論を初めて示すものである。
論文 参考訳(メタデータ) (2025-10-06T06:05:36Z) - Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents [106.04963073116468]
フローチャートは意思決定プロセスを視覚化するための重要なツールです。
視覚言語モデルは、これらの図を分析する際に、存在しない接続や決定経路を幻覚させる。
LLM応答を参照してフローチャートを接地する特定の成分をトレースするフローチャートについて紹介する。
本稿では, グラフベースの推論により微細なホック帰属を行うニューロシンボリック・エージェントであるFlowPathAgentを提案する。
論文 参考訳(メタデータ) (2025-06-02T06:02:41Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution [47.79080056618323]
グラフ画像内の支持証拠を識別し,きめ細かなバウンディングボックスの引用を提供するマルチエージェントフレームワークであるChartCitorを提案する。
このシステムは、LCMエージェントを編成して、チャートからテーブルへの抽出、回答の修正、テーブル拡張、事前フィルタリングと再ランク付けによるエビデンス検索、テーブルからチャートへのマッピングを行う。
論文 参考訳(メタデータ) (2025-02-03T02:00:51Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。