論文の概要: Effective Training Data Synthesis for Improving MLLM Chart Understanding
- arxiv url: http://arxiv.org/abs/2508.06492v1
- Date: Fri, 08 Aug 2025 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.330423
- Title: Effective Training Data Synthesis for Improving MLLM Chart Understanding
- Title(参考訳): MLLMチャート理解のための効果的なトレーニングデータ合成
- Authors: Yuwei Yang, Zeyu Zhang, Yunzhong Hou, Zhuowan Li, Gaowen Liu, Ali Payani, Yuan-Sen Ting, Liang Zheng,
- Abstract要約: グラフ生成のモジュール化と視覚的詳細の多様化により、チャート理解能力が向上することを示す。
特に、5段階のデータ合成パイプラインを設計し、単一のプロット生成のためにデータと関数を分離する。
このアプローチにより、微調整データセットの生成を合理化できます。
- 参考スコア(独自算出の注目度): 21.347586170711608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to effectively read scientific plots, or chart understanding, is a central part toward building effective agents for science. However, existing multimodal large language models (MLLMs), especially open-source ones, are still falling behind with a typical success rate of 30%-50% on challenging benchmarks. Previous studies on fine-tuning MLLMs with synthetic charts are often restricted by their inadequate similarity to the real charts, which could compromise model training and performance on complex real-world charts. In this study, we show that modularizing chart generation and diversifying visual details improves chart understanding capabilities. In particular, we design a five-step data synthesis pipeline, where we separate data and function creation for single plot generation, condition the generation of later subplots on earlier ones for multi-subplot figures, visually diversify the generated figures, filter out low quality data, and finally generate the question-answer (QA) pairs with GPT-4o. This approach allows us to streamline the generation of fine-tuning datasets and introduce the effective chart dataset (ECD), which contains 10k+ chart images and 300k+ QA pairs, covering 25 topics and featuring 250+ chart type combinations with high visual complexity. We show that ECD consistently improves the performance of various MLLMs on a range of real-world and synthetic test sets. Code, data and models are available at: https://github.com/yuweiyang-anu/ECD.
- Abstract(参考訳): 科学的プロットやチャート理解を効果的に読むことは、科学のための効果的なエージェントを構築するための中心的な要素である。
しかし、既存のマルチモーダルな大規模言語モデル(MLLM)、特にオープンソースモデルは、挑戦的なベンチマークで典型的な30%から50%の成功率で依然として遅れている。
合成チャートを用いた微調整MLLMの研究は、しばしば実際のチャートと不適切な類似性によって制限され、複雑な実世界のチャートにおけるモデルトレーニングとパフォーマンスを損なう可能性がある。
本研究では,グラフ生成のモジュール化と視覚的詳細の多様化により,チャート理解能力が向上することを示す。
特に、我々は、単一プロット生成のためのデータと関数の生成を分離する5段階のデータ合成パイプラインを設計し、複数のサブプロットフィギュアに対して、後続のサブプロットの生成を条件とし、生成したフィギュアを視覚的に多様化し、低品質データをフィルタリングし、最後にGPT-4oと質問応答(QA)ペアを生成する。
このアプローチにより、微調整データセットの生成の合理化と、10k以上のチャートイメージと300k以上のQAペアを含む効率的なチャートデータセット(ECD)の導入が可能になる。
ECDは実世界および合成テストセットの様々なMLLMの性能を一貫して改善することを示す。
コード、データ、モデルについては、https://github.com/yuweiyang-anu/ECD.comで公開されている。
関連論文リスト
- BRIDGES: Bridging Graph Modality and Large Language Models within EDA Tasks [12.683482535955314]
LLMのパフォーマンスは、グラフがシーケンシャルテキストとして表現されるときに悩む。
EDAタスクのための LLM にグラフモダリティを組み込むためのフレームワークBRIDGES を紹介する。
その結果、テキストのみのベースラインに比べて、複数のタスクで2倍から10倍の改善が見られた。
論文 参考訳(メタデータ) (2025-04-07T15:27:32Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback [37.275533538711436]
階層的なパイプラインとグラフ生成のための新しいデータセットを提案する。
私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。
本稿では,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:25:56Z) - SynChart: Synthesizing Charts from Language Models [50.73888371511983]
本研究は,LLMをデータ生成に単独で活用し,チャート理解に焦点をあてた競合するマルチモダリティモデルを開発する可能性を探る。
約400万の多彩なチャートイメージと7500万以上の高密度アノテーションを含む大規模チャートデータセットであるSynChartを構築した。
我々は,このデータセットを用いて4.2Bのグラフエキスパートモデルを訓練し,GPT-4Vを超え,ChartQAタスクでほぼGPT-4Oの性能を達成した。
論文 参考訳(メタデータ) (2024-09-25T00:18:12Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - Graph Contrastive Learning Automated [94.41860307845812]
グラフコントラスト学習(GraphCL)は、有望な表現学習性能とともに登場した。
GraphCLのヒンジがアドホックなデータ拡張に与える影響は、データセット毎に手動で選択する必要がある。
本稿では,グラフデータ上でGraphCLを実行する際に,データ拡張を自動的に,適応的に動的に選択する統合バイレベル最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-10T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。