論文の概要: ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension
- arxiv url: http://arxiv.org/abs/2511.02415v1
- Date: Tue, 04 Nov 2025 09:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.881207
- Title: ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension
- Title(参考訳): ChartM$^3$: チャート理解における多次元および多段階ビジュアル推論データを構築するための多段階コード駆動パイプライン
- Authors: Duo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang,
- Abstract要約: 本研究では、視覚的推論データセットを生成するための自動多段階コード駆動パイプラインを提案する。
トレーニング用38Kチャートと142KQ&Aペアを含む多次元・多段階データセットであるChartM$3$と,高品質な評価サンプル2,871。
- 参考スコア(独自算出の注目度): 15.798942458550515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex chart understanding tasks demand advanced visual recognition and reasoning capabilities from multimodal large language models (MLLMs). However, current research provides limited coverage of complex chart scenarios and computation-intensive reasoning tasks prevalent in real-world applications. This study proposes an automated multi-stage code-driven pipeline for systematically generating visual reasoning datasets to address these limitations. The pipeline integrates retrieval-augmented generation (RAG) to retrieve professional chart templates and employs chain-of-thought (CoT) strategies to generate reasoning codes that simulate real data distributions, thereby driving chart rendering and question-related statistical computations. Through model-based evaluation, the pipeline enhances chart diversity and data quality. Using this framework, we construct ChartM$^3$, a multi-dimensional and multi-step dataset containing 38K charts and 142K Q&A pairs for training, along with 2,871 high-quality evaluation samples for enabling practical performance assessment. Supervised fine-tuning (SFT) and reinforcement learning (RL) experiments demonstrate that our dataset significantly improves reasoning capabilities and cross-domain generalization performance, enabling smaller models to achieve performance comparable to larger-scale models in complex chart comprehension.
- Abstract(参考訳): 複雑なチャート理解タスクは、マルチモーダル大言語モデル(MLLM)から高度な視覚認識と推論能力を要求する。
しかし、現在の研究では、複雑なチャートシナリオや計算集約的な推論タスクが現実世界のアプリケーションで広く使われていることを限定的に取り上げている。
本研究では,これらの制約に対処する視覚推論データセットを体系的に生成する,自動多段階コード駆動パイプラインを提案する。
このパイプラインは、検索拡張生成(RAG)を統合して、プロのチャートテンプレートを検索し、チェーン・オブ・シント(CoT)戦略を使用して、実際のデータ分布をシミュレートする推論コードを生成し、チャートレンダリングと質問関連統計計算を駆動する。
モデルに基づく評価を通じて、パイプラインはチャートの多様性とデータ品質を向上させる。
このフレームワークを用いて,38Kチャートと142KのQ&Aペアを含む多次元・多段階データセットであるChartM$^3$と,実用的な性能評価を実現するための2,871の高品質な評価サンプルを構築した。
教師付き微調整(SFT)と強化学習(RL)実験により、我々のデータセットは推論能力とクロスドメイン一般化性能を大幅に改善し、より小さなモデルで複雑なチャート理解における大規模モデルに匹敵する性能を達成できることを示した。
関連論文リスト
- Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph [42.247964605609745]
テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、大きな言語モデル(LLM)を改善する。
ノードが役割とモデルの割り当てをエンコードし、エッジが情報フローをキャプチャするマルチLLMコラボレーティブグラフとして形式化します。
本稿では,サンプリング-段階更新からサンプリング-フィードバック更新にマッピングすることで,ReINFORCEパイプラインを反映したLLMエージェント拡張フレームワークであるAgent-REINFORCEを提案する。
論文 参考訳(メタデータ) (2025-10-29T22:14:25Z) - Jupiter: Enhancing LLM Data Analysis Capabilities via Notebook and Inference-Time Value-Guided Search [37.53003959273494]
実世界のJupyterノートブックから高品質なツールベースのデータ解析タスクと実行可能なマルチステップソリューションを抽出するスケーラブルパイプラインを提案する。
このパイプラインを用いて、標準化されたタスク-解決ペアの大規模データセットであるNbQAを導入する。
また,データ解析を探索問題として定式化し,モンテカルロ木探索を適用した。
論文 参考訳(メタデータ) (2025-09-11T08:27:54Z) - Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation [12.822184232115333]
本稿では,マルチモーダル構造化強化学習(MSRL)を提案する。
実世界のarXivテーブルから300万のチャートコードペアを含む,これまでで最大のトレーニングコーパスを構築した。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%の高水準のメトリクスを改善した。
論文 参考訳(メタデータ) (2025-08-19T07:40:18Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering [12.285453136336507]
本稿では,チャート上での正確かつ解釈可能な推論を可能にするための,コード駆動型フレームワークを提案する。
まず、多彩なチャート画像を構造化されたEChartsコードに変換するために、高忠実度モデルを訓練する。
次に、一般的なチャート推論データ合成パイプラインを設計する。
最後に、教師付き微調整と強化学習を組み合わせた最終マルチモーダルモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-11T18:55:36Z) - ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning [28.204261069650897]
71Kチャートで生成した191K命令からなる新しいチャート固有視覚言語インストラクションフォローデータセットであるChartInstructを紹介した。
4つの下流タスクの実験において、まずモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-03-14T01:40:23Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。