論文の概要: Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement
- arxiv url: http://arxiv.org/abs/2504.02906v2
- Date: Wed, 20 Aug 2025 14:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 14:45:44.533887
- Title: Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement
- Title(参考訳): Dual Preference-Guided RefinementによるMLLMのチャート・ツー・コード生成の高速化
- Authors: Zhihan Zhang, Yixin Cao, Lizi Liao,
- Abstract要約: MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
- 参考スコア(独自算出の注目度): 16.22363384653305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating chart images into executable plotting scripts-referred to as the chart-to-code generation task-requires Multimodal Large Language Models (MLLMs) to perform fine-grained visual parsing, precise code synthesis, and robust cross-modal reasoning. However, this task is inherently under-constrained: multiple valid code implementations can produce the same visual chart, and evaluation must consider both code correctness and visual fidelity across diverse dimensions. This makes it difficult to learn accurate and generalizable mappings through standard supervised fine-tuning. To address these challenges, we propose a dual preference-guided refinement framework that combines a feedback-driven, dual-modality reward mechanism with iterative preference learning. Our approach introduces a structured variant generation strategy and a visual reward model to efficiently produce high-quality, aspect-aware preference pairs-making preference collection scalable and supervision more targeted. These preferences are used in an offline reinforcement learning setup to optimize the model toward multi-dimensional fidelity. Experimental results show that our framework significantly enhances the performance of general-purpose open-source MLLMs, enabling them to generate high-quality plotting code that rivals specialized chart-centric models and even some proprietary systems. The code and datasets are publicly available at https://github.com/Zhihan72/Chart2Code.
- Abstract(参考訳): チャート画像を実行可能なプロットスクリプトに変換することは、マルチモーダル大規模言語モデル(MLLM)として参照され、きめ細かいビジュアル解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
複数の有効なコード実装が同じビジュアルチャートを作成でき、さまざまな次元にわたってコードの正しさと視覚的忠実さの両方を考慮しなければなりません。
これにより、標準的な教師付き微調整を通して正確で一般化可能な写像を学習することが困難になる。
これらの課題に対処するために、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた二重嗜好誘導改善フレームワークを提案する。
提案手法では,高品質でアスペクト対応な選好ペアを効率よく生成する,構造化された変分生成戦略と視覚報酬モデルを導入する。
これらの嗜好は、多次元忠実度に向けてモデルを最適化するためにオフラインの強化学習装置で使用される。
実験の結果,我々のフレームワークは汎用MLLMの性能を大幅に向上させ,特殊なチャート中心モデルやプロプライエタリなシステムに匹敵する高品質なプロットコードを生成することができた。
コードとデータセットはhttps://github.com/Zhihan72/Chart2Codeで公開されている。
関連論文リスト
- From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - Chart2Code-MoLA: Efficient Multi-Modal Code Generation via Adaptive Expert Routing [20.521717930460692]
C2C-MoLAは、Low-Rank Adaptation (LoRA)とMixture of Experts (MoE)を相乗化するフレームワークである
LoRAは、リソースを意識したチューニングのためのパラメータ効率の更新を可能にする。
Chart2Code-160kの実験では、提案されたモデルにより生成精度が最大17%向上した。
論文 参考訳(メタデータ) (2025-11-28T16:23:04Z) - VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning [13.193184888476404]
統合マルチモーダルコード生成モデルである textbfciCoder を導入する。
まず、1.6Mイメージコードペアからなる大規模スーパービジョンファインタニング(SFT)コーパスを構築する。
次に,ビジュアル強化学習(ViRL)戦略を導入する。
論文 参考訳(メタデータ) (2025-11-01T04:05:26Z) - Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation [12.822184232115333]
本稿では,マルチモーダル構造化強化学習(MSRL)を提案する。
実世界のarXivテーブルから300万のチャートコードペアを含む,これまでで最大のトレーニングコーパスを構築した。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%の高水準のメトリクスを改善した。
論文 参考訳(メタデータ) (2025-08-19T07:40:18Z) - VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents [40.697759330690815]
ScreenCoderはモジュール型のマルチエージェントフレームワークで、タスクを3つの解釈可能なステージ(グラウンド、プランニング、生成)に分解する。
特殊エージェントにこれらの異なる責任を割り当てることで、我々のフレームワークはエンド・ツー・エンドのアプローチよりもはるかに高い堅牢性と忠実性を達成する。
提案手法は, レイアウト精度, 構造コヒーレンス, コード正確性において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T16:41:21Z) - Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction [13.728393452963942]
マルチモーダルな大言語モデル (MLLM) は、その強力な視覚的理解能力によって研究の注目を集めている。
本稿では,構造化命令に基づく反復改良法であるChartIRを提案する。
実験結果から,提案手法は他の手法と比較して,オープンソースモデルQwen2-VLとクローズドソースモデルGPT-4oの両方で優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-15T14:10:16Z) - LayoutCoT: Unleashing the Deep Reasoning Potential of Large Language Models for Layout Generation [3.1627400208503653]
条件付きレイアウト生成は、ユーザが定義した制約から視覚的に魅力的でセマンティックに一貫性のあるレイアウトを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) の推論能力を活用する新しい手法として,検索型拡張生成(RAG) とChain-of-Thought (CoT) 技術の組み合わせを提案する。
我々は3つの条件付きレイアウト生成タスクにまたがる5つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-04-15T03:12:01Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。
テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。
25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2025-02-26T05:32:45Z) - METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling [100.33658998796064]
視覚言語モデル(VLM)をベースとした,効率的な自動チャート生成のためのマルチエージェントフレームワークを構築した。
グラフ生成のタスクを特殊エージェント間の反復的協調に分解するマルチエージェントフレームワークMETALを提案する。
論文 参考訳(メタデータ) (2025-02-24T21:01:39Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - Multimodal Graph Constrastive Learning and Prompt for ChartQA [11.828192162922436]
ChartQAは、チャート要素の複雑な分布と、基礎となるデータに埋め込まれた暗黙のパターンによって、大きな課題を提示します。
我々は,チャート要素とその関連パターンの関係を明示的に表現した,チャート用の共同マルチモーダルシーングラフを開発した。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。
提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。
LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文 参考訳(メタデータ) (2024-12-30T05:07:34Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning [62.51232333352754]
テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。
それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。
本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。
我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
論文 参考訳(メタデータ) (2023-10-18T17:37:10Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。