Fugu-MT 論文翻訳(概要): CHARTOM: A Visual Theory-of-Mind Benchmark for Multimodal Large Language Models

論文の概要: CHARTOM: A Visual Theory-of-Mind Benchmark for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2408.14419v2
Date: Fri, 09 May 2025 19:55:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.655233
Title: CHARTOM: A Visual Theory-of-Mind Benchmark for Multimodal Large Language Models
Title（参考訳）: CHARTOM: マルチモーダル大規模言語モデルのためのビジュアル・オブ・ミンドベンチマーク
Authors: Shubham Bharti, Shiyun Cheng, Jihyun Rho, Jianrui Zhang, Mu Cai, Yong Jae Lee, Martina Rau, Xiaojin Zhu,
Abstract要約: マルチモーダルな大規模言語モデルのためのビジュアル・オブ・ミンド・ベンチマークであるCHARTOMを紹介する。グラフが与えられたら、言語モデルはチャートを正しく理解するだけでなく、チャートが人間の読者に誤解を招くかどうかを判断する必要がある。
参考スコア（独自算出の注目度）: 26.477627174115806
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce CHARTOM, a visual theory-of-mind benchmark for multimodal large language models. CHARTOM consists of specially designed data visualizing charts. Given a chart, a language model needs to not only correctly comprehend the chart (the FACT question) but also judge if the chart will be misleading to a human reader (the MIND question). Both questions have significant societal benefits. We detail the construction of the CHARTOM benchmark including its calibration on human performance. We benchmark leading LLMs as of late 2024 - including GPT, Claude, Gemini, Qwen, Llama, and Llava - on the CHARTOM dataset and found that our benchmark was challenging to all of them, suggesting room for future large language models to improve.
Abstract（参考訳）: マルチモーダルな大規模言語モデルのためのビジュアル・オブ・ミンド・ベンチマークであるCHARTOMを紹介する。 CHARTOMは、特別に設計されたデータ視覚化チャートで構成されている。グラフが与えられたら、言語モデルはチャートを正しく理解するだけでなく(FACTの質問)、チャートが人間の読者に誤解をもたらすかどうかを判断する必要がある(MINDの質問)。どちらの質問も社会的な利点がある。人体性能の校正を含むCHARTOMベンチマークの構築について詳述する。私たちは2024年後半に、CHARTOMデータセット上で、GPT、Claude、Gemini、Qwen、Llama、Llavaを含むLLMをベンチマークしました。

関連論文リスト

Chart-to-Experience: Benchmarking Multimodal LLMs for Predicting Experiential Impact of Charts [11.029722116574604]
我々は,36のチャートからなるベンチマークデータセットであるChart-to-Experienceを導入し,クラウドソーシング作業者が7つの実験要因に与える影響を評価した。このデータセットを基礎的真理として用いて、2つのタスク(直接予測とグラフのペアワイズ比較)で最先端MLLMの能力を評価した。その結果,MLLMは個々のチャートを評価する際,人間の評価値ほど敏感ではないが,相互比較では正確で信頼性が高いことが示唆された。
論文参考訳（メタデータ） (2025-05-23T01:12:57Z)
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering [45.67334913593117]
誤解を招く可視化は、公衆の理解にリスクをもたらし、データ駆動通信に関わるAIシステムに対して安全上の懸念を提起する。我々は、24の最先端MLLMをベンチマークし、ミスリーダータイプとチャートフォーマット間での性能を分析し、新しい地域対応推論パイプラインを提案する。我々の研究は、堅牢で信頼性があり、責任ある視覚コミュニケーションの要求に沿うMLLMを開発するための基盤を築いた。
論文参考訳（メタデータ） (2025-03-23T18:56:33Z)
Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文参考訳（メタデータ） (2025-03-13T20:13:39Z)
Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文参考訳（メタデータ） (2025-03-06T05:08:40Z)
Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文参考訳（メタデータ） (2024-10-24T14:50:42Z)
How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文参考訳（メタデータ） (2024-10-04T04:48:33Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文参考訳（メタデータ） (2024-06-26T17:50:11Z)
Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs [11.19928977117624]
自然言語は、バーやラインチャートのようなデータ視覚化のためのコミュニケーションの強力な補完的モダリティである。近年,チャート質問応答,チャート要約,ファクトチェックなど,さまざまなダウンストリームタスクが導入されている。これらのタスクはユニークな課題であり、視覚言語推論とグラフデータテーブル、ビジュアルエンコーディング、自然言語プロンプトの微妙な理解の両方を要求する。本稿では,最近開発された大規模視覚言語モデル(LVLM)の総合的な評価を,チャート理解と推論のタスクに対して行った。
論文参考訳（メタデータ） (2024-06-01T01:43:30Z)
AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文参考訳（メタデータ） (2024-05-22T12:18:52Z)
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文参考訳（メタデータ） (2024-04-25T14:23:24Z)
ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。 ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文参考訳（メタデータ） (2024-02-19T14:48:23Z)
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文参考訳（メタデータ） (2024-01-04T17:51:48Z)
Enhanced Chart Understanding in Vision and Language Task via Cross-modal Pre-training on Plot Table Pairs [71.55796212450055]
本稿では、プロットテーブルペア上でのクロスモーダル事前学習を通じて、チャート画像からテーブル情報を解釈する方法を学ぶV+LモデルであるChartT5を紹介する。具体的には,MHP(Masked Header Prediction)とMVP(Masked Value Prediction)の2つの新しい事前学習目標を提案する。
論文参考訳（メタデータ） (2023-05-29T22:29:03Z)
Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。データセット構築プロセスを説明し、データセットを解析する。
論文参考訳（メタデータ） (2022-03-12T17:01:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。