論文の概要: Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering
- arxiv url: http://arxiv.org/abs/2503.18172v1
- Date: Sun, 23 Mar 2025 18:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:15.467412
- Title: Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering
- Title(参考訳): 誤解を解き明かさない視覚:チャート質問に対するマルチモーダルな大規模言語モデルのベンチマーク
- Authors: Zixin Chen, Sicheng Song, Kashun Shum, Yanna Lin, Rui Sheng, Huamin Qu,
- Abstract要約: 誤解を招くチャートの視覚化は、知覚を歪め、誤った結論につながる可能性がある。
大規模言語モデル(MLLM)の最近の進歩は、強力なチャート理解能力を示している。
本稿では,ミスリーディングチャート質問回答ベンチマーク(Misleading Chart Question Answering (Misleading ChartQA)ベンチマーク)を紹介する。
- 参考スコア(独自算出の注目度): 28.54154468156412
- License:
- Abstract: Misleading chart visualizations, which intentionally manipulate data representations to support specific claims, can distort perceptions and lead to incorrect conclusions. Despite decades of research, misleading visualizations remain a widespread and pressing issue. Recent advances in multimodal large language models (MLLMs) have demonstrated strong chart comprehension capabilities, yet no existing work has systematically evaluated their ability to detect and interpret misleading charts. This paper introduces the Misleading Chart Question Answering (Misleading ChartQA) Benchmark, a large-scale multimodal dataset designed to assess MLLMs in identifying and reasoning about misleading charts. It contains over 3,000 curated examples, covering 21 types of misleaders and 10 chart types. Each example includes standardized chart code, CSV data, and multiple-choice questions with labeled explanations, validated through multi-round MLLM checks and exhausted expert human review. We benchmark 16 state-of-the-art MLLMs on our dataset, revealing their limitations in identifying visually deceptive practices. We also propose a novel pipeline that detects and localizes misleaders, enhancing MLLMs' accuracy in misleading chart interpretation. Our work establishes a foundation for advancing MLLM-driven misleading chart comprehension. We publicly release the sample dataset to support further research in this critical area.
- Abstract(参考訳): 特定のクレームをサポートするためにデータ表現を意図的に操作するミスリーディングチャートの視覚化は、知覚を歪め、誤った結論につながる可能性がある。
何十年にもわたっての研究にもかかわらず、誤解を招く可視化は広く報道されている問題である。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、強力なチャート理解能力を示しているが、誤解を招くグラフを検出して解釈する能力を体系的に評価する研究は存在しない。
本稿ではミスリーディングチャート質問回答ベンチマーク(Misleading ChartQA)を紹介する。ミスリーディングチャートの識別と推論においてMLLMを評価するために設計された大規模マルチモーダルデータセットである。
3000以上のキュレートされたサンプルが含まれており、21種類のミスリーダーと10種類のチャートをカバーしている。
それぞれの例には、標準化されたチャートコード、CSVデータ、ラベル付き説明付き複数選択質問、マルチラウンドMLLMチェックによる検証、専門家によるレビューの欠落が含まれている。
我々は、データセット上で16の最先端のMLLMをベンチマークし、視覚的に偽装的なプラクティスを特定する際の制限を明らかにした。
また,ミスリーダの検出とローカライズを行う新しいパイプラインを提案し,ミスリードチャート解釈におけるMLLMの精度を向上させる。
本研究は,MLLM駆動型ミスリーディングチャートの理解を促進する基盤を確立する。
この重要な領域のさらなる研究を支援するために、サンプルデータセットを公開しています。
関連論文リスト
- ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution [47.79080056618323]
グラフ画像内の支持証拠を識別し,きめ細かなバウンディングボックスの引用を提供するマルチエージェントフレームワークであるChartCitorを提案する。
このシステムは、LCMエージェントを編成して、チャートからテーブルへの抽出、回答の修正、テーブル拡張、事前フィルタリングと再ランク付けによるエビデンス検索、テーブルからチャートへのマッピングを行う。
論文 参考訳(メタデータ) (2025-02-03T02:00:51Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - MultiChartQA: Benchmarking Vision-Language Models on Multi-Chart Problems [18.188725200923333]
チャート関連タスクの既存のベンチマークは、実世界のマルチチャートシナリオの複雑さを捉えるのに不足している。
直接質問応答,並列質問応答,比較推論,シーケンシャル推論の4つの重要な領域でMLLMの能力を評価するベンチマークであるMultiChartQAを紹介する。
本研究は,マルチチャート理解の課題と,この分野での進歩を促進するためのマルチチャートQAの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-18T05:15:50Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - How Good (Or Bad) Are LLMs at Detecting Misleading Visualizations? [35.79617496973775]
誤解を招くチャートは、視聴者のデータに対する認識を歪め、誤った情報に基づく誤解や決定につながる。
ミスリードチャートのための効果的な自動検出手法の開発は、緊急研究分野である。
マルチモーダル大規模言語モデルの最近の進歩は、この問題に対処するための有望な方向性を導入している。
論文 参考訳(メタデータ) (2024-07-24T14:02:20Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。