論文の概要: Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction
- arxiv url: http://arxiv.org/abs/2506.14837v1
- Date: Sun, 15 Jun 2025 14:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.421253
- Title: Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction
- Title(参考訳): 構造化命令によるChart-to-Code生成の反復リファインメントの改善
- Authors: Chengzhi Xu, Yuyang Wang, Lai Wei, Lichao Sun, Weiran Huang,
- Abstract要約: マルチモーダルな大言語モデル (MLLM) は、その強力な視覚的理解能力によって研究の注目を集めている。
本稿では,構造化命令に基づく反復改良法であるChartIRを提案する。
実験結果から,提案手法は他の手法と比較して,オープンソースモデルQwen2-VLとクローズドソースモデルGPT-4oの両方で優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 13.728393452963942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, multimodal large language models (MLLMs) have attracted increasing research attention due to their powerful visual understanding capabilities. While they have achieved impressive results on various vision tasks, their performance on chart-to-code generation remains suboptimal. This task requires MLLMs to generate executable code that can reproduce a given chart, demanding not only precise visual understanding but also accurate translation of visual elements into structured code. Directly prompting MLLMs to perform this complex task often yields unsatisfactory results. To address this challenge, we propose {ChartIR}, an iterative refinement method based on structured instruction. First, we distinguish two tasks: visual understanding and code translation. To accomplish the visual understanding component, we design two types of structured instructions: description and difference. The description instruction captures the visual elements of the reference chart, while the difference instruction characterizes the discrepancies between the reference chart and the generated chart. These instructions effectively transform visual features into language representations, thereby facilitating the subsequent code translation process. Second, we decompose the overall chart generation pipeline into two stages: initial code generation and iterative refinement, enabling progressive enhancement of the final output. Experimental results show that, compared to other method, our method achieves superior performance on both the open-source model Qwen2-VL and the closed-source model GPT-4o.
- Abstract(参考訳): 近年,マルチモーダル・大規模言語モデル (MLLM) は,その強力な視覚的理解能力から研究の注目を集めている。
様々な視覚タスクにおいて印象的な結果を得たが、チャート・ツー・コード生成のパフォーマンスは依然として最適ではない。
このタスクでは、MLLMが与えられたチャートを再現できる実行可能なコードを生成する必要があり、正確な視覚的理解だけでなく、構造化されたコードへの視覚的要素の正確な翻訳も要求される。
直接MLLMにこの複雑なタスクを実行するよう促すことは、しばしば不満足な結果をもたらす。
この課題に対処するために,構造化命令に基づく反復的洗練法である {ChartIR} を提案する。
まず、視覚的理解とコード翻訳の2つのタスクを区別する。
視覚的理解コンポーネントを実現するために、我々は2種類の構造化命令(記述と差分)を設計する。
記述命令は参照チャートの視覚的要素をキャプチャし、差分命令は参照チャートと生成されたチャートとの相違を特徴付ける。
これらの命令は視覚的特徴を言語表現に効果的に変換し、その後のコード翻訳プロセスを容易にする。
第2に、グラフ生成パイプライン全体を、初期コード生成と反復的な改善の2段階に分解し、最終的な出力の漸進的な向上を可能にします。
実験結果から,提案手法は他の手法と比較して,オープンソースモデルQwen2-VLとクローズドソースモデルGPT-4oの両方で優れた性能が得られることがわかった。
関連論文リスト
- Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning [16.22363384653305]
Chart2Codeは、チャート・ツー・コード生成のための新しい反復的な二重選好学習フレームワークである。
Chart2Codeは、ディストリビューション外のチャート・ツー・コード生成品質を継続的に改善する。
我々のフレームワークは、チャート理解における今後の進歩の道を開く。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [62.88742217569754]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - MetaMorph: Multimodal Understanding and Generation via Instruction Tuning [57.35160715164359]
視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。
VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。
MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
論文 参考訳(メタデータ) (2024-12-18T18:58:50Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。