論文の概要: ChartEdit: How Far Are MLLMs From Automating Chart Analysis? Evaluating MLLMs' Capability via Chart Editing
- arxiv url: http://arxiv.org/abs/2505.11935v1
- Date: Sat, 17 May 2025 09:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.950725
- Title: ChartEdit: How Far Are MLLMs From Automating Chart Analysis? Evaluating MLLMs' Capability via Chart Editing
- Title(参考訳): チャート編集:チャート分析からMLLMまでの距離は?チャート編集によるMLLMの能力評価
- Authors: Xuanle Zhao, Xuexin Liu, Haoyue Yang, Xianzhen Luo, Fanhu Zeng, Jianling Li, Qi Shi, Chi Chen,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、チャートレンダリングコードを生成する際の約束を示すが、チャート編集はより大きな課題を示す。
グラフ編集タスク用に設計された,新しい高品質なベンチマークであるChartEditを提案する。
2種類の実験で10種類のMLLMの性能を評価し,コードレベルとチャートレベルの両方で評価した。
- 参考スコア(独自算出の注目度): 6.671042213908933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although multimodal large language models (MLLMs) show promise in generating chart rendering code, chart editing presents a greater challenge. This difficulty stems from its nature as a labor-intensive task for humans that also demands MLLMs to integrate chart understanding, complex reasoning, and precise intent interpretation. While many MLLMs claim such editing capabilities, current assessments typically rely on limited case studies rather than robust evaluation methodologies, highlighting the urgent need for a comprehensive evaluation framework. In this work, we propose ChartEdit, a new high-quality benchmark designed for chart editing tasks. This benchmark comprises $1,405$ diverse editing instructions applied to $233$ real-world charts, with each instruction-chart instance having been manually annotated and validated for accuracy. Utilizing ChartEdit, we evaluate the performance of 10 mainstream MLLMs across two types of experiments, assessing them at both the code and chart levels. The results suggest that large-scale models can generate code to produce images that partially match the reference images. However, their ability to generate accurate edits according to the instructions remains limited. The state-of-the-art (SOTA) model achieves a score of only $59.96$, highlighting significant challenges in precise modification. In contrast, small-scale models, including chart-domain models, struggle both with following editing instructions and generating overall chart images, underscoring the need for further development in this area. Code is available at https://github.com/xxlllz/ChartEdit.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は、チャートレンダリングコードを生成する上で有望であることを示しているが、チャート編集はより大きな課題を示している。
この難しさは、MLLMにチャート理解、複雑な推論、正確な意図解釈を統合することを要求する人間の労働集約的なタスクとしての性質に起因している。
多くのMLLMはそのような編集能力を主張しているが、現在の評価は堅牢な評価手法ではなく、限られたケーススタディに依存しており、包括的な評価フレームワークの緊急の必要性を強調している。
本研究では,チャート編集タスク用に設計された新しい高品質なベンチマークであるChartEditを提案する。
このベンチマークは、1,405ドルの多様な編集命令を233ドルの現実世界のチャートに適用し、各インストラクションチャートインスタンスに手動でアノテートし、正確性を検証している。
ChartEditを利用することで、2種類の実験で10のメインストリームMLLMの性能を評価し、コードレベルとチャートレベルの両方で評価する。
その結果,大規模なモデルでは参照画像に部分的に一致する画像を生成するコードを生成することが可能であることが示唆された。
しかし、その指示に従って正確な編集を行う能力は依然として限られている。
最先端のSOTA(State-of-the-art)モデルは59.96ドルのスコアしか得られず、正確な修正において重要な課題を浮き彫りにしている。
対照的に、チャートドメインモデルを含む小規模モデルは、編集命令に従うことと、全体のチャート画像を生成することに苦慮し、この分野でさらなる開発の必要性を強調している。
コードはhttps://github.com/xxlllz/ChartEditで入手できる。
関連論文リスト
- Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。