論文の概要: Do MLLMs Really Understand the Charts?
- arxiv url: http://arxiv.org/abs/2509.04457v1
- Date: Wed, 27 Aug 2025 09:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.877161
- Title: Do MLLMs Really Understand the Charts?
- Title(参考訳): MLLMはチャートを本当に理解しているか?
- Authors: Xiao Zhang, Dongyuan Li, Liuyu Xiang, Yao Zhang, Cheng Zhong, Zhaofeng He,
- Abstract要約: MLLMは、チャートの解釈を推論するのではなく、主に認識に依存している、と我々は主張する。
MLLMを合理的なチャート理解に活用するために、チャート理解においてその推定を基礎にして人間の振る舞いを模倣するChartReasonerを提案する。
- 参考スコア(独自算出の注目度): 30.848420807347896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Multimodal Large Language Models (MLLMs) have demonstrated increasingly impressive performance in chart understanding, most of them exhibit alarming hallucinations and significant performance degradation when handling non-annotated charts. Therefore, a question arises: Do MLLMs really understand the charts? Since a human is capable of understanding charts and estimating the values by visual reasoning, we first carefully establish a comprehensive Chart Reasoning Benchmark CRBench to rigorously evaluate the visual reasoning abilities of MLLMs on non-annotated charts. We argue that MLLMs are primarily relying on recognition rather than reasoning to interpret the charts. To steer MLLMs to reasonable chart understanding, we propose ChartReasoner that mimics human behavior by grounding their estimation in chart understanding. Extensive results on the proposed CRBench show that ChartReasnoner-3B/7B achieves superior performance in chart reasoning, even compared to GPT-4o and Gemini-2.5-Flash. More importantly, ChartReasnoner also demonstrates the visual reasoning abilities in general chart comprehension on public benchmarks, leading to significant performance gains and enabling MLLMs to rationally understand the charts. The code and dataset will be publicly available upon publication.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、チャート理解においてますます顕著なパフォーマンスを示しているが、それらの多くは、注意深い幻覚と、注釈のないチャートを扱う際の顕著なパフォーマンス劣化を示している。
MLLMはチャートを本当に理解していますか?
そこで我々はまず,非注釈チャート上でMLLMの視覚的推論能力を厳格に評価するための総合的なチャート推論ベンチマークCRBenchを確立する。
MLLMは、チャートの解釈を推論するのではなく、主に認識に依存している、と我々は主張する。
MLLMを合理的なチャート理解に活用するために、チャート理解においてその推定を基礎にして人間の振る舞いを模倣するChartReasonerを提案する。
GPT-4o や Gemini-2.5-Flash と比較しても,ChartReasnoner-3B/7B はグラフ推論において優れていた。
さらに重要なこととして、ChartReasnoner氏は、公開ベンチマークの一般的なチャート理解における視覚的推論能力も示している。
コードとデータセットは公開時に公開される。
関連論文リスト
- ChartAttack: Testing the Vulnerability of LLMs to Malicious Prompting in Chart Generation [51.49421299447412]
マルチモーダルな大言語モデル(MLLM)は、データテーブルからのチャート生成を自動化するためにますます使われている。
ChartAttackは,MLLMを誤用して大規模にミスリードチャートを生成する方法を評価するフレームワークである。
論文 参考訳(メタデータ) (2026-01-19T11:57:48Z) - ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning [54.86473583610112]
グラフの連鎖推論に反射的相互作用を統合するPointCoTを提案する。
位置アノテーションに基づいてMLLMにバウンディングボックスと再レンダリングチャートを生成することで、テキスト推論ステップと視覚的接地領域の接続を確立する。
我々は、いくつかのグラフベンチマークにおいて最先端のモデルであるChartPointQ2とChartPointQ2.5を開発した。
論文 参考訳(メタデータ) (2025-11-29T04:01:55Z) - ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。
グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。
評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文 参考訳(メタデータ) (2025-05-25T23:17:32Z) - InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts [20.95897015354387]
InfoChartQAは、インフォグラフィックチャートの理解に基づいてマルチモーダル大言語モデル(MLLM)を評価するためのベンチマークである。
5,642組のインフォグラフィックと平易なチャートが含まれており、それぞれが同じ基礎データを共有するが、視覚的な表示では異なる。
視覚的要素に基づく質問を設計し、そのユニークな視覚的デザインとコミュニケーション意図を捉える。
論文 参考訳(メタデータ) (2025-05-25T08:28:03Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。
ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。