論文の概要: Do MLLMs Really Understand the Charts?
- arxiv url: http://arxiv.org/abs/2509.04457v1
- Date: Wed, 27 Aug 2025 09:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.877161
- Title: Do MLLMs Really Understand the Charts?
- Title(参考訳): MLLMはチャートを本当に理解しているか?
- Authors: Xiao Zhang, Dongyuan Li, Liuyu Xiang, Yao Zhang, Cheng Zhong, Zhaofeng He,
- Abstract要約: MLLMは、チャートの解釈を推論するのではなく、主に認識に依存している、と我々は主張する。
MLLMを合理的なチャート理解に活用するために、チャート理解においてその推定を基礎にして人間の振る舞いを模倣するChartReasonerを提案する。
- 参考スコア(独自算出の注目度): 30.848420807347896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Multimodal Large Language Models (MLLMs) have demonstrated increasingly impressive performance in chart understanding, most of them exhibit alarming hallucinations and significant performance degradation when handling non-annotated charts. Therefore, a question arises: Do MLLMs really understand the charts? Since a human is capable of understanding charts and estimating the values by visual reasoning, we first carefully establish a comprehensive Chart Reasoning Benchmark CRBench to rigorously evaluate the visual reasoning abilities of MLLMs on non-annotated charts. We argue that MLLMs are primarily relying on recognition rather than reasoning to interpret the charts. To steer MLLMs to reasonable chart understanding, we propose ChartReasoner that mimics human behavior by grounding their estimation in chart understanding. Extensive results on the proposed CRBench show that ChartReasnoner-3B/7B achieves superior performance in chart reasoning, even compared to GPT-4o and Gemini-2.5-Flash. More importantly, ChartReasnoner also demonstrates the visual reasoning abilities in general chart comprehension on public benchmarks, leading to significant performance gains and enabling MLLMs to rationally understand the charts. The code and dataset will be publicly available upon publication.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、チャート理解においてますます顕著なパフォーマンスを示しているが、それらの多くは、注意深い幻覚と、注釈のないチャートを扱う際の顕著なパフォーマンス劣化を示している。
MLLMはチャートを本当に理解していますか?
そこで我々はまず,非注釈チャート上でMLLMの視覚的推論能力を厳格に評価するための総合的なチャート推論ベンチマークCRBenchを確立する。
MLLMは、チャートの解釈を推論するのではなく、主に認識に依存している、と我々は主張する。
MLLMを合理的なチャート理解に活用するために、チャート理解においてその推定を基礎にして人間の振る舞いを模倣するChartReasonerを提案する。
GPT-4o や Gemini-2.5-Flash と比較しても,ChartReasnoner-3B/7B はグラフ推論において優れていた。
さらに重要なこととして、ChartReasnoner氏は、公開ベンチマークの一般的なチャート理解における視覚的推論能力も示している。
コードとデータセットは公開時に公開される。
関連論文リスト
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。