論文の概要: Evaluating Graphical Perception with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2504.04221v1
- Date: Sat, 05 Apr 2025 16:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:34.775492
- Title: Evaluating Graphical Perception with Multimodal LLMs
- Title(参考訳): マルチモーダルLCMによるグラフィカル知覚の評価
- Authors: Rami Huu Nguyen, Kenichi Maeda, Mahsa Geshvadi, Daniel Haehn,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は画像の解析と理解において著しく進歩している。
可視化のために、MLLMはグラフィカルな知覚タスクに適用した場合、どのように機能するか?
本研究は主に、微調整および事前訓練されたモデルとゼロショットを用いて、人間の視覚的知覚と密に一致しているかどうかを判断する。
- 参考スコア(独自算出の注目度): 2.090547583226381
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have remarkably progressed in analyzing and understanding images. Despite these advancements, accurately regressing values in charts remains an underexplored area for MLLMs. For visualization, how do MLLMs perform when applied to graphical perception tasks? Our paper investigates this question by reproducing Cleveland and McGill's seminal 1984 experiment and comparing it against human task performance. Our study primarily evaluates fine-tuned and pretrained models and zero-shot prompting to determine if they closely match human graphical perception. Our findings highlight that MLLMs outperform human task performance in some cases but not in others. We highlight the results of all experiments to foster an understanding of where MLLMs succeed and fail when applied to data visualization.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は画像の解析と理解において著しく進歩している。
これらの進歩にもかかわらず、チャートの正確な値の回帰は、MLLMの未探索領域として残されている。
可視化のために、MLLMはグラフィカルな知覚タスクに適用した場合、どのように機能するか?
本稿では,クリーブランドとマクギルの1984年の第1回実験を再現し,人間のタスク性能と比較することによって,この問題を考察する。
本研究は主に、微調整および事前訓練されたモデルとゼロショットを用いて、人間の視覚的知覚と密に一致しているかどうかを判断する。
これらの結果から,MLLMは人的タスク性能に優れるが,それ以外は優れていないことが示唆された。
データビジュアライゼーションに適用した場合、MLLMが成功するか、失敗するかを理解するために、すべての実験の結果を強調します。
関連論文リスト
- Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities [31.293869275511412]
本稿では、画像分類の詳細な分析により、MLLM(Multimodal Large Language Models)を徹底的に再検討する。
この結果から,最新のMLLMは,複数のデータセット上でCLIPスタイルの視覚言語モデルに適合し,さらに優れることがわかった。
論文 参考訳(メタデータ) (2024-12-21T00:46:56Z) - Do Multimodal Large Language Models See Like Humans? [50.938168841711445]
MLLM(Multimodal Large Language Models)は、様々なビジョンタスクにおいて、近年の大規模言語モデルの進歩を活用して、印象的な成果を上げている。
現在のベンチマークでは、この観点からMLLMを評価する能力がない。
MLLMと人間の視覚システムとの整合性を評価するための大規模ベンチマークであるHVSBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-12T18:59:25Z) - Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Investigating the Catastrophic Forgetting in Multimodal Large Language
Models [43.89009178021342]
MLLMにおける破滅的忘れの評価のためのMulTimodalityを評価するEMTについて紹介する。
ほぼ全ての評価されたMLLMは、標準的な画像分類タスクにおけるビジョンエンコーダと同じパフォーマンスレベルを維持することができない。
微調整が進むにつれて、MLLMは幻覚し始め、一般化可能性が著しく失われる。
論文 参考訳(メタデータ) (2023-09-19T04:51:13Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。