論文の概要: CHARTOM: A Visual Theory-of-Mind Benchmark for LLMs on Misleading Charts
- arxiv url: http://arxiv.org/abs/2408.14419v3
- Date: Sun, 29 Jun 2025 00:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:38.436947
- Title: CHARTOM: A Visual Theory-of-Mind Benchmark for LLMs on Misleading Charts
- Title(参考訳): CHARTOM: ミススリーディングチャート上のLCMのビジュアル・オブ・ミンドベンチマーク
- Authors: Shubham Bharti, Shiyun Cheng, Jihyun Rho, Jianrui Zhang, Mu Cai, Yong Jae Lee, Martina Rau, Xiaojin Zhu,
- Abstract要約: CHARTOMはマルチモーダルな大規模言語モデルの能力を評価するために設計されたビジュアル・オブ・ミンド・ベンチマークである。
CHARTOMは、慎重に設計されたチャートと関連する質問で構成されており、言語モデルがチャートの事実を正しく理解するだけでなく(FACTの質問)、チャートが人間の読者に誤解をもたらすかどうかを判断する(MINDの質問)。
我々は,人間のパフォーマンスの校正や,人間ミスリーディングネス指数(Human Misleadingness Index)と呼ばれるMIND基底真理の推定を含むベンチマークの構築について詳述する。
- 参考スコア(独自算出の注目度): 26.477627174115806
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce CHARTOM, a visual theory-of-mind benchmark designed to evaluate multimodal large language models' capability to understand and reason about misleading data visualizations though charts. CHARTOM consists of carefully designed charts and associated questions that require a language model to not only correctly comprehend the factual content in the chart (the FACT question) but also judge whether the chart will be misleading to a human readers (the MIND question), a dual capability with significant societal benefits. We detail the construction of our benchmark including its calibration on human performance and estimation of MIND ground truth called the Human Misleadingness Index. We evaluated several leading LLMs -- including GPT, Claude, Gemini, Qwen, Llama, and Llava series models -- on the CHARTOM dataset and found that it was challenging to all models both on FACT and MIND questions. This highlights the limitations of current LLMs and presents significant opportunity for future LLMs to improve on understanding misleading charts.
- Abstract(参考訳): CHARTOMはマルチモーダルな大規模言語モデルの能力を評価するために設計されたビジュアル・オブ・ミンド・ベンチマークである。
CHARTOMは、慎重に設計されたチャートと関連する質問で構成されており、グラフの事実を正しく理解するだけでなく(FACTの質問)、チャートが人間の読者に誤解をもたらすかどうかを判断する(MINDの質問)。
我々は,人間のパフォーマンスの校正や,人間ミスリーディングネス指数(Human Misleadingness Index)と呼ばれるMIND基底真理の推定を含むベンチマークの構築について詳述する。
私たちはCHARTOMデータセットを用いて、GPT、Claude、Gemini、Qwen、Llama、Llavaシリーズモデルを含むいくつかの主要なLCMを評価し、FACTとMINDの問に対して、すべてのモデルが困難であることが分かりました。
これは、現在のLLMの限界を強調し、ミスリードチャートの理解を改善するための将来のLLMにとって大きなチャンスとなる。
関連論文リスト
- Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。
さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文 参考訳(メタデータ) (2025-03-06T05:08:40Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - Enhanced Chart Understanding in Vision and Language Task via Cross-modal
Pre-training on Plot Table Pairs [71.55796212450055]
本稿では、プロットテーブルペア上でのクロスモーダル事前学習を通じて、チャート画像からテーブル情報を解釈する方法を学ぶV+LモデルであるChartT5を紹介する。
具体的には,MHP(Masked Header Prediction)とMVP(Masked Value Prediction)の2つの新しい事前学習目標を提案する。
論文 参考訳(メタデータ) (2023-05-29T22:29:03Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。