論文の概要: Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding
- arxiv url: http://arxiv.org/abs/2504.09764v1
- Date: Mon, 14 Apr 2025 00:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:51.866578
- Title: Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding
- Title(参考訳): Socratic Chart:ロバストSVGチャート理解のための複数エージェントの協調
- Authors: Yuyang Ji, Haohan Wang,
- Abstract要約: 既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
- 参考スコア(独自算出の注目度): 14.75820681491341
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have shown remarkable versatility but face challenges in demonstrating true visual understanding, particularly in chart reasoning tasks. Existing benchmarks like ChartQA reveal significant reliance on text-based shortcuts and probabilistic pattern-matching rather than genuine visual reasoning. To rigorously evaluate visual reasoning, we introduce a more challenging test scenario by removing textual labels and introducing chart perturbations in the ChartQA dataset. Under these conditions, models like GPT-4o and Gemini-2.0 Pro experience up to a 30% performance drop, underscoring their limitations. To address these challenges, we propose Socratic Chart, a new framework that transforms chart images into Scalable Vector Graphics (SVG) representations, enabling MLLMs to integrate textual and visual modalities for enhanced chart understanding. Socratic Chart employs a multi-agent pipeline with specialized agent-generators to extract primitive chart attributes (e.g., bar heights, line coordinates) and an agent-critic to validate results, ensuring high-fidelity symbolic representations. Our framework surpasses state-of-the-art models in accurately capturing chart primitives and improving reasoning performance, establishing a robust pathway for advancing MLLM visual understanding.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、目覚ましい汎用性を示しているが、特にチャート推論タスクにおいて、真の視覚的理解を示す上での課題に直面している。
ChartQAのような既存のベンチマークは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに大きく依存している。
視覚的推論を厳格に評価するために、テキストラベルを削除し、ChartQAデータセットにチャート摂動を導入することで、より困難なテストシナリオを導入する。
これらの条件下では、GPT-4oやGemini-2.0 Proのようなモデルは30%のパフォーマンス低下を経験し、その限界を強調している。
これらの課題に対処するため,我々はSoccratic Chartを提案する。Soccratic Chartはグラフ画像をスケーラブルベクトルグラフ(SVG)表現に変換する新しいフレームワークで,MLLMがテキストと視覚のモダリティを統合してチャート理解を強化する。
Socratic Chartでは、エージェントジェネレータを備えたマルチエージェントパイプラインを使用して、プリミティブチャート属性(例えば、バーの高さ、ライン座標)を抽出し、エージェントクリティカルを使用して結果の検証を行い、高忠実度シンボル表現を保証する。
我々のフレームワークは、チャートプリミティブを正確にキャプチャし、推論性能を改善し、MLLMの視覚的理解を促進するための堅牢な経路を確立する際に、最先端モデルを上回る。
関連論文リスト
- Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning [13.011899331656018]
VProChartは、CQA(Chart Question Answering)の課題に対処するために設計された新しいフレームワークである。
軽量な視覚知覚アライメントエージェント(VPAgent)と,プログラム型ソリューション推論アプローチを統合している。
VProChartは既存のメソッドよりも優れており、チャートによる理解と推論の能力を強調している。
論文 参考訳(メタデータ) (2024-09-03T07:19:49Z) - MSG-Chart: Multimodal Scene Graph for ChartQA [11.828192162922436]
グラフに明示的に表示されていない基礎データのパターンを持つチャート要素の複雑な分布のため、ChartQA(Automatic Chart Question Answering)は難しい。
チャート要素とそれらのパターンの関係を明示的に表すために、チャートのための共同マルチモーダルシーングラフを設計する。
提案するマルチモーダルシーングラフには視覚グラフとテキストグラフが含まれており,そのグラフから構造的および意味的知識を共同でキャプチャする。
論文 参考訳(メタデータ) (2024-08-09T04:11:23Z) - Advancing Chart Question Answering with Robust Chart Component Recognition [18.207819321127182]
本稿では,バー,ライン,パイ,タイトル,伝説,軸といったコンポーネントを正確に識別し,分類することで,チャートコンポーネントの認識を強化する統一フレームワークを提案する。
また,Chartformerによって符号化されたチャート機能に与えられた質問を融合させ,正しい回答の根拠となる質問のガイダンスを活用する,新しい質問誘導型変形型コ・アテンション機構を提案する。
論文 参考訳(メタデータ) (2024-07-19T20:55:06Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。