論文の概要: Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning
- arxiv url: http://arxiv.org/abs/2504.02906v1
- Date: Thu, 03 Apr 2025 07:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:43.203055
- Title: Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning
- Title(参考訳): 反復的デュアル優先度学習によるマルチモーダル大言語モデルにおけるチャート・ツー・コード生成の強化
- Authors: Zhihan Zhang, Yixin Cao, Lizi Liao,
- Abstract要約: Chart2Codeは、チャート・ツー・コード生成のための新しい反復的な二重選好学習フレームワークである。
Chart2Codeは、ディストリビューション外のチャート・ツー・コード生成品質を継続的に改善する。
我々のフレームワークは、チャート理解における今後の進歩の道を開く。
- 参考スコア(独自算出の注目度): 16.22363384653305
- License:
- Abstract: Chart-to-code generation, the process of converting chart images into executable plotting scripts, provides a lossless representation of chart information, requiring models to accurately capture and summarize all visual and structural elements. However, this remains a significant challenge for multimodal large language models (MLLMs), which are not inherently well-aligned with code generation tasks. To bridge this gap, we introduce Chart2Code, a novel iterative dual preference learning framework designed to enhance MLLMs' chart-to-code generation capabilities through structured code variant generation and fine-grained dual reward signals. We validate Chart2Code across three MLLMs and find that iterative preference learning consistently improves out-of-distribution chart-to-code generation quality. Throughout this process, our dual scoring method, which evaluates both the textual code structure and its visual representation, leads to greater performance improvements, even with a reduced preference dataset size. Further analysis explores the key components of our framework and highlights the interplay between chart-to-code generation and broader chart reasoning, paving the way for future advancements in chart comprehension.
- Abstract(参考訳): チャートイメージを実行可能なプロットスクリプトに変換するプロセスであるChart-to-code生成は、チャート情報の損失のない表現を提供し、モデルがすべての視覚的および構造的要素を正確にキャプチャし、要約する必要がある。
しかし、これは本質的にコード生成タスクと整合性がないマルチモーダルな大規模言語モデル(MLLM)にとって重要な課題である。
このギャップを埋めるために、構造化コード変量生成と微細な双対報酬信号によるMLLMのチャート・ツー・コード生成能力を高めるために設計された、新しい反復的二重優先学習フレームワークであるChart2Codeを紹介した。
3つのMLLMに対してChart2Codeを検証した結果,反復的な選好学習がチャート・ツー・コード生成品質を継続的に改善していることが判明した。
このプロセスを通じて、テキストコード構造とその視覚的表現の両方を評価するデュアルスコアリング手法は、好みのデータセットサイズが小さくても、パフォーマンスが向上する。
さらなる分析では、我々のフレームワークの重要コンポーネントを探求し、チャート・ツー・コード生成とより広範なチャート推論の相互作用を強調し、チャート理解における今後の進歩の道を開く。
関連論文リスト
- ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - Multimodal Graph Constrastive Learning and Prompt for ChartQA [11.828192162922436]
ChartQAは、チャート要素の複雑な分布と、基礎となるデータに埋め込まれた暗黙のパターンによって、大きな課題を提示します。
我々は,チャート要素とその関連パターンの関係を明示的に表現した,チャート用の共同マルチモーダルシーングラフを開発した。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。
LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文 参考訳(メタデータ) (2024-12-30T05:07:34Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning [62.51232333352754]
テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。
それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。
本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。
我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
論文 参考訳(メタデータ) (2023-10-18T17:37:10Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。