Fugu-MT 論文翻訳(概要): Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning

論文の概要: Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning

arxiv url: http://arxiv.org/abs/2504.02906v1
Date: Thu, 03 Apr 2025 07:51:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-15 00:37:25.11198
Title: Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning
Title（参考訳）: 反復的デュアル優先度学習によるマルチモーダル大言語モデルにおけるチャート・ツー・コード生成の強化
Authors: Zhihan Zhang, Yixin Cao, Lizi Liao,
Abstract要約: Chart2Codeは、チャート・ツー・コード生成のための新しい反復的な二重選好学習フレームワークである。 Chart2Codeは、ディストリビューション外のチャート・ツー・コード生成品質を継続的に改善する。我々のフレームワークは、チャート理解における今後の進歩の道を開く。
参考スコア（独自算出の注目度）: 16.22363384653305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chart-to-code generation, the process of converting chart images into executable plotting scripts, provides a lossless representation of chart information, requiring models to accurately capture and summarize all visual and structural elements. However, this remains a significant challenge for multimodal large language models (MLLMs), which are not inherently well-aligned with code generation tasks. To bridge this gap, we introduce Chart2Code, a novel iterative dual preference learning framework designed to enhance MLLMs' chart-to-code generation capabilities through structured code variant generation and fine-grained dual reward signals. We validate Chart2Code across three MLLMs and find that iterative preference learning consistently improves out-of-distribution chart-to-code generation quality. Throughout this process, our dual scoring method, which evaluates both the textual code structure and its visual representation, leads to greater performance improvements, even with a reduced preference dataset size. Further analysis explores the key components of our framework and highlights the interplay between chart-to-code generation and broader chart reasoning, paving the way for future advancements in chart comprehension.
Abstract（参考訳）: チャートイメージを実行可能なプロットスクリプトに変換するプロセスであるChart-to-code生成は、チャート情報の損失のない表現を提供し、モデルがすべての視覚的および構造的要素を正確にキャプチャし、要約する必要がある。しかし、これは本質的にコード生成タスクと整合性がないマルチモーダルな大規模言語モデル(MLLM)にとって重要な課題である。このギャップを埋めるために、構造化コード変量生成と微細な双対報酬信号によるMLLMのチャート・ツー・コード生成能力を高めるために設計された、新しい反復的二重優先学習フレームワークであるChart2Codeを紹介した。 3つのMLLMに対してChart2Codeを検証した結果,反復的な選好学習がチャート・ツー・コード生成品質を継続的に改善していることが判明した。このプロセスを通じて、テキストコード構造とその視覚的表現の両方を評価するデュアルスコアリング手法は、好みのデータセットサイズが小さくても、パフォーマンスが向上する。さらなる分析では、我々のフレームワークの重要コンポーネントを探求し、チャート・ツー・コード生成とより広範なチャート推論の相互作用を強調し、チャート理解における今後の進歩の道を開く。

関連論文リスト

Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文参考訳（メタデータ） (2025-04-14T00:07:39Z)
TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。 25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2025-02-26T05:32:45Z)
METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling [100.33658998796064]
視覚言語モデル(VLM)をベースとした,効率的な自動チャート生成のためのマルチエージェントフレームワークを構築した。グラフ生成のタスクを特殊エージェント間の反復的協調に分解するマルチエージェントフレームワークMETALを提案する。
論文参考訳（メタデータ） (2025-02-24T21:01:39Z)
ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。 textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文参考訳（メタデータ） (2025-01-11T17:52:22Z)
Multimodal Graph Constrastive Learning and Prompt for ChartQA [11.828192162922436]
ChartQAは、チャート要素の複雑な分布と、基礎となるデータに埋め込まれた暗黙のパターンによって、大きな課題を提示します。我々は,チャート要素とその関連パターンの関係を明示的に表現した,チャート用の共同マルチモーダルシーングラフを開発した。
論文参考訳（メタデータ） (2025-01-08T06:27:07Z)
ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。 LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文参考訳（メタデータ） (2024-12-30T05:07:34Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文参考訳（メタデータ） (2024-04-25T14:23:24Z)
ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文参考訳（メタデータ） (2023-11-27T15:20:23Z)
DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning [62.51232333352754]
テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
論文参考訳（メタデータ） (2023-10-18T17:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。