論文の概要: ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding
- arxiv url: http://arxiv.org/abs/2505.19076v1
- Date: Sun, 25 May 2025 10:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.886013
- Title: ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding
- Title(参考訳): ChartSketcher: チャート理解のためのマルチモーダルフィードバックとリフレクションによる推論
- Authors: Muye Huang, Lingling Zhang, Jie Ma, Han Lai, Fangzhi Xu, Yifei Li, Wenjun Wu, Yaqiang Wu, Jun Liu,
- Abstract要約: チャートの自動理解は、既存のマルチモーダルな大規模言語モデルに重大な課題をもたらす。
現在のステップバイステップ推論モデルは、主にチャート理解のためのテキストベースの論理的推論に焦点を当てている。
マルチモーダルフィードバック駆動のステップバイステップ推論手法であるChartSketcherを提案する。
- 参考スコア(独自算出の注目度): 18.67532755744138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are high-density visualization carriers for complex data, serving as a crucial medium for information extraction and analysis. Automated chart understanding poses significant challenges to existing multimodal large language models (MLLMs) due to the need for precise and complex visual reasoning. Current step-by-step reasoning models primarily focus on text-based logical reasoning for chart understanding. However, they struggle to refine or correct their reasoning when errors stem from flawed visual understanding, as they lack the ability to leverage multimodal interaction for deeper comprehension. Inspired by human cognitive behavior, we propose ChartSketcher, a multimodal feedback-driven step-by-step reasoning method designed to address these limitations. ChartSketcher is a chart understanding model that employs Sketch-CoT, enabling MLLMs to annotate intermediate reasoning steps directly onto charts using a programmatic sketching library, iteratively feeding these visual annotations back into the reasoning process. This mechanism enables the model to visually ground its reasoning and refine its understanding over multiple steps. We employ a two-stage training strategy: a cold start phase to learn sketch-based reasoning patterns, followed by off-policy reinforcement learning to enhance reflection and generalization. Experiments demonstrate that ChartSketcher achieves promising performance on chart understanding benchmarks and general vision tasks, providing an interactive and interpretable approach to chart comprehension.
- Abstract(参考訳): グラフは複雑なデータのための高密度可視化キャリアであり、情報抽出と分析の重要な媒体となる。
チャートの自動理解は、正確で複雑な視覚的推論を必要とするため、既存のマルチモーダルな大規模言語モデル(MLLM)に重大な課題をもたらす。
現在のステップバイステップ推論モデルは、主にチャート理解のためのテキストベースの論理的推論に焦点を当てている。
しかし、より深い理解のためにマルチモーダル相互作用を活用する能力が欠如しているため、エラーが視覚的理解の欠陥に起因する場合、彼らは推論を洗練または修正するのに苦労する。
人間の認知行動にインスパイアされたマルチモーダルフィードバック駆動のステップバイステップ推論手法であるChartSketcherを提案する。
ChartSketcherはSketch-CoTを使ったチャート理解モデルであり、MLLMはプログラム的なスケッチライブラリを使用して、中間的推論ステップをチャートに直接アノテートすることができる。
このメカニズムにより、モデルは推論を視覚的に基礎化し、複数のステップで理解を深めることができる。
スケッチに基づく推論パターンを学習するためのコールドスタートフェーズと、リフレクションと一般化を強化するための非政治強化学習という2段階のトレーニング戦略を採用している。
実験により、ChartSketcherはチャート理解ベンチマークと一般的なビジョンタスクで有望なパフォーマンスを実現し、チャート理解のためのインタラクティブで解釈可能なアプローチを提供する。
関連論文リスト
- Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文 参考訳(メタデータ) (2025-03-13T20:13:39Z) - End-to-End Chart Summarization via Visual Chain-of-Thought in Vision-Language Models [0.0]
本稿では,チャート要約のためのEnd-to-End Visual Chain-of-Thought (V-CoT)を提案する。
本手法では,LVLMを直接トレーニングして,チャート画像の処理とテキスト要約をエンドツーエンドで生成する。
我々は、視覚的推論ステップを実行するためにLVLMを暗黙的に誘導する、微調整による視覚的連鎖機構を組み込んだ。
論文 参考訳(メタデータ) (2025-02-24T19:13:45Z) - VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning [13.011899331656018]
VProChartは、CQA(Chart Question Answering)の課題に対処するために設計された新しいフレームワークである。
軽量な視覚知覚アライメントエージェント(VPAgent)と,プログラム型ソリューション推論アプローチを統合している。
VProChartは既存のメソッドよりも優れており、チャートによる理解と推論の能力を強調している。
論文 参考訳(メタデータ) (2024-09-03T07:19:49Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。