Fugu-MT 論文翻訳(概要): ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation

論文の概要: ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation

arxiv url: http://arxiv.org/abs/2501.06598v1
Date: Sat, 11 Jan 2025 17:52:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 21:19:24.920714
Title: ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation
Title（参考訳）: ChartCoder: Chart-to-Code生成のためのマルチモーダル大言語モデルの改善
Authors: Xuanle Zhao, Xianzhen Luo, Qi Shi, Chi Chen, Shuo Wang, Wanxiang Che, Zhiyuan Liu, Maosong Sun,
Abstract要約: textbfChartCoderは、最初の専用チャートからコードへのMLLMである。 textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
参考スコア（独自算出の注目度）: 90.82566869965011
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in chart understanding tasks. However, interpreting charts with textual descriptions often leads to information loss, as it fails to fully capture the dense information embedded in charts. In contrast, parsing charts into code provides lossless representations that can effectively contain all critical details. Although existing open-source MLLMs have achieved success in chart understanding tasks, they still face two major challenges when applied to chart-to-code tasks.: (1) Low executability and poor restoration of chart details in the generated code and (2) Lack of large-scale and diverse training data. To address these challenges, we propose \textbf{ChartCoder}, the first dedicated chart-to-code MLLM, which leverages Code LLMs as the language backbone to enhance the executability of the generated code. Furthermore, we introduce \textbf{Chart2Code-160k}, the first large-scale and diverse dataset for chart-to-code generation, and propose the \textbf{Snippet-of-Thought (SoT)} method, which transforms direct chart-to-code generation data into step-by-step generation. Experiments demonstrate that ChartCoder, with only 7B parameters, surpasses existing open-source MLLMs on chart-to-code benchmarks, achieving superior chart restoration and code excitability. Our code will be available at https://github.com/thunlp/ChartCoder.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、チャート理解タスクにおいて顕著な機能を示す。しかしながら、チャートをテキスト記述で解釈することは、しばしば、チャートに埋め込まれた密集した情報をフルにキャプチャできないため、情報損失につながる。対照的に、チャートをコードにパースすることは、すべての重要な詳細を効果的に含む、損失のない表現を提供する。既存のオープンソースのMLLMは、チャート理解タスクで成功したが、チャートからコードへのタスクに適用した場合、依然として2つの大きな課題に直面している。 2) 大規模・多種多様なトレーニングデータの欠如により,(1) 実行可能性の低下と生成コード内のチャート詳細の復元が困難になった。これらの課題に対処するために、コードLLMを言語バックボーンとして活用し、生成したコードの実行可能性を高める、最初の専用チャート・トゥ・コードMLLMである \textbf{ChartCoder} を提案する。さらに、グラフからコードへ生成する最初の大規模かつ多様なデータセットである \textbf{Chart2Code-160k} を導入し、直接チャートからコードへ生成するデータをステップバイステップ生成に変換する \textbf{Snippet-of-Thought (SoT)} 法を提案する。実験によると、ChartCoderは7Bパラメータしか持たず、チャートからコードへのベンチマークで既存のオープンソースMLLMを上回り、優れたチャート復元とコードの排他性を達成している。私たちのコードはhttps://github.com/thunlp/ChartCoder.comで利用可能です。

関連論文リスト

In-Depth and In-Breadth: Pre-training Multimodal Language Models Customized for Comprehensive Chart Understanding [113.17601814293722]
様々なチャートタイプにまたがる詳細なチャート理解に最適化されたLVLMであるChartScopeを紹介する。そこで本研究では,多種多様なグラフ型のペアデータを生成する,効率的なデータ生成パイプラインを提案する。また、異なるレベルでの質問回答だけでなく、基礎となるデータ理解を評価するための新しいベンチマークであるChartDQAも確立しました。
論文参考訳（メタデータ） (2025-07-18T18:15:09Z)
Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction [13.728393452963942]
マルチモーダルな大言語モデル (MLLM) は、その強力な視覚的理解能力によって研究の注目を集めている。本稿では,構造化命令に基づく反復改良法であるChartIRを提案する。実験結果から,提案手法は他の手法と比較して,オープンソースモデルQwen2-VLとクローズドソースモデルGPT-4oの両方で優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-06-15T14:10:16Z)
ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文参考訳（メタデータ） (2025-05-25T23:17:32Z)
ChartEdit: How Far Are MLLMs From Automating Chart Analysis? Evaluating MLLMs' Capability via Chart Editing [6.671042213908933]
マルチモーダルな大言語モデル(MLLM)は、チャートレンダリングコードを生成する際の約束を示すが、コードによるチャートの編集はより難しい課題である。グラフ編集タスク用に設計された新しいベンチマークであるtextscChartEditを提案する。コードレベルとチャートレベルの2種類の実験で10種類のMLLMの性能を評価した。
論文参考訳（メタデータ） (2025-05-17T09:47:15Z)
Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning [16.22363384653305]
Chart2Codeは、チャート・ツー・コード生成のための新しい反復的な二重選好学習フレームワークである。 Chart2Codeは、ディストリビューション外のチャート・ツー・コード生成品質を継続的に改善する。我々のフレームワークは、チャート理解における今後の進歩の道を開く。
論文参考訳（メタデータ） (2025-04-03T07:51:20Z)
Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文参考訳（メタデータ） (2024-10-24T14:50:42Z)
Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback [37.275533538711436]
階層的なパイプラインとグラフ生成のための新しいデータセットを提案する。私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。本稿では,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
論文参考訳（メタデータ） (2024-10-05T07:25:56Z)
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文参考訳（メタデータ） (2024-04-25T14:23:24Z)
ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。 ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文参考訳（メタデータ） (2024-02-19T14:48:23Z)
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文参考訳（メタデータ） (2024-01-04T17:51:48Z)
ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文参考訳（メタデータ） (2023-12-26T07:20:55Z)
ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文参考訳（メタデータ） (2023-11-27T15:20:23Z)
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文参考訳（メタデータ） (2023-04-05T00:25:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。