論文の概要: Aligned Multi-View Scripts for Universal Chart-to-Code Generation
- arxiv url: http://arxiv.org/abs/2604.24559v1
- Date: Mon, 27 Apr 2026 14:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.100338
- Title: Aligned Multi-View Scripts for Universal Chart-to-Code Generation
- Title(参考訳): ユニバーサルチャート・ツー・コード生成のための多視点スクリプトのアライメント
- Authors: Zhihan Zhang, Lizi Liao,
- Abstract要約: 既存のメソッドは大部分がPython中心であり、実用的な使用を制限し、重要な監視源を見落としている。
Chart2NCodeは176Kチャートのデータセットで、Python、R、視覚的に等価な出力をレンダリングする視覚化と整列したスクリプトを組み合わせます。
LLaVAスタイルのアーキテクチャ上に構築されたCharLuMAは,低ランク部分空間の言語条件の混合でマルチモーダルプロジェクタを拡張可能なパラメータ効率適応モジュールである。
- 参考スコア(独自算出の注目度): 25.240854955272912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chart-to-code generation converts a chart image into an executable plotting script, enabling faithful reproduction and editable visualizations. Existing methods are largely Python-centric, limiting practical use and overlooking a critical source of supervision: the same chart can be expressed by semantically equivalent scripts in different plotting languages. To fill this gap, we introduce Chart2NCode, a dataset of 176K charts paired with aligned scripts in Python, R, and LaTeX that render visually equivalent outputs, constructed via a metadata-to-template pipeline with rendering verification and human quality checks. Building on a LLaVA-style architecture, we further propose CharLuMA, a parameter-efficient adaptation module that augments the multimodal projector with a language-conditioned mixture of low-rank subspaces, allowing the model to share core chart understanding while specializing code generation to the target language through lightweight routing. Extensive experiments show consistent gains in executability and visual fidelity across all languages, outperforming strong open-source baselines and remaining competitive with proprietary systems. Further analyses reveal that balanced multi-language supervision benefits all languages and that the adapter allocates a compact shared core plus language-specific capacity. Codes and data are available at https://github.com/Zhihan72/CharLuMA.
- Abstract(参考訳): Chart-to-code生成は、チャートイメージを実行可能なプロットスクリプトに変換し、忠実な再現と編集可能な視覚化を可能にする。
既存のメソッドはPython中心であり、実用的な使用を制限し、監督の重要なソースを見渡す:同じチャートは異なるプロット言語で意味的に等価なスクリプトで表現できる。
このギャップを埋めるために、Python、R、LaTeXの整列スクリプトと組み合わせた176KチャートのデータセットであるChart2NCodeを紹介します。
LLaVAスタイルのアーキテクチャ上に構築されたCharLuMAは,マルチモーダルプロジェクタを低ランク部分空間の言語条件の混合で拡張するパラメータ効率適応モジュールである。
大規模な実験は、すべての言語で実行可能性と視覚的忠実度が一貫して向上し、強力なオープンソースベースラインを上回り、プロプライエタリなシステムとの競争力を維持していることを示している。
さらに分析したところ、バランスの取れた多言語指導は全ての言語に利益をもたらし、アダプタはコンパクトな共有コアと言語固有の容量を割り当てていることがわかった。
コードとデータはhttps://github.com/Zhihan72/CharLuMA.comで公開されている。
関連論文リスト
- VisCoder2: Building Multi-Language Visualization Coding Agents [63.63232038173407]
可視化符号化エージェントを進化させるための3つの相補的なリソースを紹介する。
VisCoder2は、強力なオープンソースベースラインを著しく上回り、プロプライエタリなモデルのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2025-10-24T18:03:57Z) - POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering [69.52231076699756]
PolyChartQAは10の言語で22,606のチャートと26,151の質問応答ペアをカバーする最初の大規模多言語チャート回答ベンチマークである。
我々は、最先端のLLMベースの翻訳を活用し、パイプラインにおける厳密な品質制御を適用し、生成された多言語チャートの言語的および意味的一貫性を確保する。
論文 参考訳(メタデータ) (2025-07-16T06:09:02Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [62.88742217569754]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - LIDA: A Tool for Automatic Generation of Grammar-Agnostic Visualizations
and Infographics using Large Language Models [0.6091702876917281]
本稿では,文法に依存しないビジュアライゼーションとインフォグラフィックを生成するための新しいツールであるLIDAを紹介する。
LIDAは4つのモジュールから構成される - データはリッチだがコンパクトな自然言語の要約に変換するSUMMARIZER、データに与えられた視覚化目標を列挙するGOAL EXPLORER、視覚化コードの生成、精細化、フィルタリングを行うVISGENERATOR、IGMを使用したデータフルスタイルのグラフィックを生成するINFOGRAPHERモジュール。
論文 参考訳(メタデータ) (2023-03-06T06:47:22Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。