Fugu-MT 論文翻訳(概要): Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement

論文の概要: Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement

arxiv url: http://arxiv.org/abs/2504.02906v2
Date: Wed, 20 Aug 2025 14:56:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-21 14:45:44.533887
Title: Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement
Title（参考訳）: Dual Preference-Guided RefinementによるMLLMのチャート・ツー・コード生成の高速化
Authors: Zhihan Zhang, Yixin Cao, Lizi Liao,
Abstract要約: MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
参考スコア（独自算出の注目度）: 16.22363384653305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Translating chart images into executable plotting scripts-referred to as the chart-to-code generation task-requires Multimodal Large Language Models (MLLMs) to perform fine-grained visual parsing, precise code synthesis, and robust cross-modal reasoning. However, this task is inherently under-constrained: multiple valid code implementations can produce the same visual chart, and evaluation must consider both code correctness and visual fidelity across diverse dimensions. This makes it difficult to learn accurate and generalizable mappings through standard supervised fine-tuning. To address these challenges, we propose a dual preference-guided refinement framework that combines a feedback-driven, dual-modality reward mechanism with iterative preference learning. Our approach introduces a structured variant generation strategy and a visual reward model to efficiently produce high-quality, aspect-aware preference pairs-making preference collection scalable and supervision more targeted. These preferences are used in an offline reinforcement learning setup to optimize the model toward multi-dimensional fidelity. Experimental results show that our framework significantly enhances the performance of general-purpose open-source MLLMs, enabling them to generate high-quality plotting code that rivals specialized chart-centric models and even some proprietary systems. The code and datasets are publicly available at https://github.com/Zhihan72/Chart2Code.
Abstract（参考訳）: チャート画像を実行可能なプロットスクリプトに変換することは、マルチモーダル大規模言語モデル(MLLM)として参照され、きめ細かいビジュアル解析、正確なコード合成、堅牢なクロスモーダル推論を行う。複数の有効なコード実装が同じビジュアルチャートを作成でき、さまざまな次元にわたってコードの正しさと視覚的忠実さの両方を考慮しなければなりません。これにより、標準的な教師付き微調整を通して正確で一般化可能な写像を学習することが困難になる。これらの課題に対処するために、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた二重嗜好誘導改善フレームワークを提案する。提案手法では,高品質でアスペクト対応な選好ペアを効率よく生成する,構造化された変分生成戦略と視覚報酬モデルを導入する。これらの嗜好は、多次元忠実度に向けてモデルを最適化するためにオフラインの強化学習装置で使用される。実験の結果,我々のフレームワークは汎用MLLMの性能を大幅に向上させ,特殊なチャート中心モデルやプロプライエタリなシステムに匹敵する高品質なプロットコードを生成することができた。コードとデータセットはhttps://github.com/Zhihan72/Chart2Codeで公開されている。

関連論文リスト

Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction [13.728393452963942]
マルチモーダルな大言語モデル (MLLM) は、その強力な視覚的理解能力によって研究の注目を集めている。本稿では,構造化命令に基づく反復改良法であるChartIRを提案する。実験結果から,提案手法は他の手法と比較して,オープンソースモデルQwen2-VLとクローズドソースモデルGPT-4oの両方で優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-06-15T14:10:16Z)
Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文参考訳（メタデータ） (2025-04-14T00:07:39Z)
TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。 25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2025-02-26T05:32:45Z)
METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling [100.33658998796064]
視覚言語モデル(VLM)をベースとした,効率的な自動チャート生成のためのマルチエージェントフレームワークを構築した。グラフ生成のタスクを特殊エージェント間の反復的協調に分解するマルチエージェントフレームワークMETALを提案する。
論文参考訳（メタデータ） (2025-02-24T21:01:39Z)
ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。 textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文参考訳（メタデータ） (2025-01-11T17:52:22Z)
Multimodal Graph Constrastive Learning and Prompt for ChartQA [11.828192162922436]
ChartQAは、チャート要素の複雑な分布と、基礎となるデータに埋め込まれた暗黙のパターンによって、大きな課題を提示します。我々は,チャート要素とその関連パターンの関係を明示的に表現した,チャート用の共同マルチモーダルシーングラフを開発した。
論文参考訳（メタデータ） (2025-01-08T06:27:07Z)
ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。 LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文参考訳（メタデータ） (2024-12-30T05:07:34Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文参考訳（メタデータ） (2024-04-25T14:23:24Z)
ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文参考訳（メタデータ） (2023-11-27T15:20:23Z)
DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning [62.51232333352754]
テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
論文参考訳（メタデータ） (2023-10-18T17:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。