論文の概要: ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering
- arxiv url: http://arxiv.org/abs/2506.10116v1
- Date: Wed, 11 Jun 2025 18:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.401942
- Title: ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering
- Title(参考訳): ChartReasoner: 長鎖推論のためのコード駆動型モダリティブリッジ
- Authors: Caijun Jia, Nan Xu, Jingxuan Wei, Qingli Wang, Lei Wang, Bihui Yu, Junnan Zhu,
- Abstract要約: 本稿では,チャート上での正確かつ解釈可能な推論を可能にするための,コード駆動型フレームワークを提案する。
まず、多彩なチャート画像を構造化されたEChartsコードに変換するために、高忠実度モデルを訓練する。
次に、一般的なチャート推論データ合成パイプラインを設計する。
最後に、教師付き微調整と強化学習を組み合わせた最終マルチモーダルモデルを訓練する。
- 参考スコア(独自算出の注目度): 12.285453136336507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large language models have shown remarkable reasoning capabilities through long-chain reasoning before responding. However, how to extend this capability to visual reasoning tasks remains an open challenge. Existing multimodal reasoning approaches transfer such visual reasoning task into textual reasoning task via several image-to-text conversions, which often lose critical structural and semantic information embedded in visualizations, especially for tasks like chart question answering that require a large amount of visual details. To bridge this gap, we propose ChartReasoner, a code-driven novel two-stage framework designed to enable precise, interpretable reasoning over charts. We first train a high-fidelity model to convert diverse chart images into structured ECharts codes, preserving both layout and data semantics as lossless as possible. Then, we design a general chart reasoning data synthesis pipeline, which leverages this pretrained transport model to automatically and scalably generate chart reasoning trajectories and utilizes a code validator to filter out low-quality samples. Finally, we train the final multimodal model using a combination of supervised fine-tuning and reinforcement learning on our synthesized chart reasoning dataset and experimental results on four public benchmarks clearly demonstrate the effectiveness of our proposed ChartReasoner. It can preserve the original details of the charts as much as possible and perform comparably with state-of-the-art open-source models while using fewer parameters, approaching the performance of proprietary systems like GPT-4o in out-of-domain settings.
- Abstract(参考訳): 近年,大規模言語モデルでは,応答前の長鎖推論を通じて,顕著な推論能力を示している。
しかし、この機能を視覚的推論タスクに拡張する方法は、依然としてオープンな課題である。
既存のマルチモーダル推論アプローチは、このような視覚的推論タスクを複数の画像からテキストへの変換を通じてテキスト的推論タスクに転送する。
このギャップを埋めるために、我々はChartReasonerを提案する。
まず、多彩なチャート画像を構造化されたEChartsコードに変換するために高忠実度モデルをトレーニングし、レイアウトとデータセマンティクスの両方を可能な限り無害に保存する。
そこで我々は,この事前学習されたトランスポートモデルを利用して,チャート推論トラジェクトリを自動的かつ辛抱的に生成する汎用チャート推論データ合成パイプラインを設計し,コードバリケータを用いて低品質サンプルをフィルタリングする。
最後に、教師付き微調整と強化学習を組み合わせた最終マルチモーダルモデルを、我々の合成チャート推論データセットと、提案したChartReasonerの有効性を実証した4つの公開ベンチマークの実験結果を用いて訓練する。
グラフのオリジナルの詳細を可能な限り保存し、より少ないパラメータを使用しながら最先端のオープンソースモデルと互換性を持ち、ドメイン外の設定でGPT-4oのようなプロプライエタリなシステムのパフォーマンスにアプローチすることができる。
関連論文リスト
- Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.19963543411396]
本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。
本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。
キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-03-17T14:49:09Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - Deep Prompt Tuning for Graph Transformers [55.2480439325792]
ファインチューニングはリソース集約型であり、大きなモデルのコピーを複数保存する必要がある。
ファインチューニングの代替として,ディープグラフプロンプトチューニングと呼ばれる新しい手法を提案する。
事前学習したパラメータを凍結し、追加したトークンのみを更新することにより、フリーパラメータの数を減らし、複数のモデルコピーを不要にする。
論文 参考訳(メタデータ) (2023-09-18T20:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。