論文の概要: ChartM$^3$: Benchmarking Chart Editing with Multimodal Instructions
- arxiv url: http://arxiv.org/abs/2507.21167v2
- Date: Wed, 30 Jul 2025 05:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.843683
- Title: ChartM$^3$: Benchmarking Chart Editing with Multimodal Instructions
- Title(参考訳): ChartM$^3$:マルチモーダルインストラクションによるベンチマークチャートの編集
- Authors: Donglu Yang, Liang Zhang, Zihao Yue, Liangyu Chen, Yichen Xu, Wenxuan Wang, Qin Jin,
- Abstract要約: 本稿では,ユーザ意図を自然言語と視覚指標の組み合わせで表現する,マルチモーダルチャート編集のための新しいパラダイムを提案する。
マルチモードチャート編集のための新しいベンチマークであるChart$textM3$を,マルチレベル複雑度とマルチパースペクティブ評価で提示する。
- 参考スコア(独自算出の注目度): 65.21061221740388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Charts are a fundamental visualization format widely used in data analysis across research and industry. While enabling users to edit charts based on high-level intentions is of great practical value, existing methods primarily rely on natural language instructions, which are often too ambiguous to support fine-grained editing. In this work, we introduce a novel paradigm for multimodal chart editing, where user intent is expressed through a combination of natural language and visual indicators that explicitly highlight the elements to be modified. To support this paradigm, we present Chart$\text{M}^3$, a new benchmark for Multimodal chart editing with Multi-level complexity and Multi-perspective evaluation. Chart$\text{M}^3$ contains 1,000 samples spanning four levels of editing difficulty. Each sample includes triplets in the form of (chart, code, multimodal instructions). To comprehensively evaluate chart editing models, Chart$\text{M}^3$ provides metrics that assess both visual appearance and code correctness. Our benchmark reveals significant limitations in current multimodal large language models (MLLMs), including GPT-4o, particularly in their ability to interpret and act on visual indicators. To address this, we construct Chart$\text{M}^3$-Train, a large-scale training set with 24,000 multimodal chart editing samples. Fine-tuning MLLMs on this dataset leads to substantial improvements, demonstrating the importance of multimodal supervision in building practical chart editing systems. Our datasets, codes, and evaluation tools are available at https://github.com/MLrollIT/ChartM3. %https://github.com/MLrollIT/ChartM3Our datasets, codes, and evaluation tools are available at https://github.com/yaolinli/VCE.
- Abstract(参考訳): チャートは、研究や産業全体でデータ分析に広く使われている基本的な視覚化フォーマットである。
ユーザが高レベルな意図に基づいてチャートを編集できることは、非常に現実的な価値であるが、既存のメソッドは主に自然言語命令に依存しており、微粒な編集をサポートするには曖昧すぎることが多い。
本研究では,修正すべき要素を明確に強調する自然言語と視覚指標を組み合わせることで,ユーザ意図を表現できるマルチモーダルチャート編集のための新しいパラダイムを提案する。
このパラダイムをサポートするために、マルチレベルの複雑さとマルチパースペクティブ評価を備えたマルチモーダルチャート編集のための新しいベンチマークであるChart$\text{M}^3$を提案する。
Chart$\text{M}^3$には、編集の難しさの4レベルにまたがる1,000のサンプルが含まれている。
各サンプルには三つ子(チャート、コード、マルチモーダル命令)が含まれている。
チャート編集モデルを総合的に評価するために、Chart$\text{M}^3$は、視覚的外観とコードの正確性の両方を評価する指標を提供する。
我々のベンチマークでは、GPT-4oを含む現在のマルチモーダル大言語モデル(MLLM)において、特に視覚的インジケータの解釈と動作に重大な制限があることが示されている。
これに対処するため、24,000のマルチモーダルチャート編集サンプルを備えた大規模トレーニングセットであるChart$\text{M}^3$-Trainを構築した。
このデータセット上の微調整MLLMは、実用的なチャート編集システムを構築する上でのマルチモーダル監視の重要性を証明し、大幅な改善をもたらす。
私たちのデータセット、コード、評価ツールはhttps://github.com/MLrollIT/ChartM3.comで公開されています。
https://github.com/MLrollIT/ChartM3Ourデータセット、コード、評価ツールはhttps://github.com/yaolinli/VCEで入手できる。
関連論文リスト
- ChartEdit: How Far Are MLLMs From Automating Chart Analysis? Evaluating MLLMs' Capability via Chart Editing [6.671042213908933]
マルチモーダルな大言語モデル(MLLM)は、チャートレンダリングコードを生成する際の約束を示すが、チャート編集はより大きな課題を示す。
グラフ編集タスク用に設計された,新しい高品質なベンチマークであるChartEditを提案する。
2種類の実験で10種類のMLLMの性能を評価し,コードレベルとチャートレベルの両方で評価した。
論文 参考訳(メタデータ) (2025-05-17T09:47:15Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。