論文の概要: HueManity: Probing Fine-Grained Visual Perception in MLLMs
- arxiv url: http://arxiv.org/abs/2506.03194v1
- Date: Sat, 31 May 2025 22:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.933481
- Title: HueManity: Probing Fine-Grained Visual Perception in MLLMs
- Title(参考訳): HueManity:MLLMにおける細粒度視覚知覚の探索
- Authors: Rynaa Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay Pande,
- Abstract要約: HueManityはMLLMの視覚知覚を評価するために設計されたベンチマークである。
このデータセットは、石原テストスタイルのドットパターンに埋め込まれた2文字のアルファ数字の文字列を特徴とする83,850枚の画像からなる。
HueManityにおける9つの最先端MLLMの評価は、人間や伝統的なコンピュータビジョンのベースラインと比較して大きな性能低下を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) excel at high-level visual reasoning, but their performance on nuanced perceptual tasks remains surprisingly limited. We present HueManity, a benchmark designed to assess visual perception in MLLMs. The dataset comprises 83,850 images featuring two-character alphanumeric strings embedded in Ishihara test style dot patterns, challenging models on precise pattern recognition. Our evaluation of nine state-of-the-art MLLMs on HueManity demonstrates a significant performance deficit compared to human and traditional computer vision baselines. The best-performing MLLM achieved a 33.6% accuracy on the numeric `easy' task and a striking 3% on the alphanumeric `hard' task. In contrast, human participants achieved near-perfect scores (100% and 95.6%), and a fine-tuned ResNet50 model reached accuracies of 96.5% and 94.5%. These results highlight a critical gap in the visual capabilities of current MLLMs. Our analysis further explores potential architectural and training-paradigm factors contributing to this perceptual gap in MLLMs. We open-source HueManity dataset and code to foster further research in improving perceptual robustness of MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、高レベルの視覚的推論において優れているが、ニュアンス付き知覚タスクにおける性能は驚くほど制限されている。
本稿では,MLLMの視覚知覚を評価するためのベンチマークであるHueManityを紹介する。
データセットは、石原テストスタイルのドットパターンに2文字のアルファ数字の文字列を埋め込んだ83,850枚の画像で構成され、正確なパターン認識のモデルに挑戦する。
HueManityにおける9つの最先端MLLMの評価は、人間や伝統的なコンピュータビジョンのベースラインと比較して大きな性能低下を示している。
最高のパフォーマンスのMLLMは、数字の"easy"タスクで33.6%の精度を獲得し、α数字の"hard"タスクで3%の精度を達成した。
対照的に、人間の参加者は100%と95.6%のほぼ完全なスコアを獲得し、微調整されたResNet50モデルは96.5%と94.5%の精度に達した。
これらの結果は、現在のMLLMの視覚能力における重要なギャップを浮き彫りにする。
さらに,MLLMにおけるこの知覚的ギャップに寄与するアーキテクチャ的・訓練的パラダイム的要因についても検討した。
我々はHueManityデータセットとコードをオープンソース化し、MLLMの知覚的堅牢性を改善するためのさらなる研究を促進する。
関連論文リスト
- Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs [9.951669153984708]
Do You See Me"は,1,758のイメージと2,612の質問を備えた,スケーラブルなベンチマークである。
人間は96.49%の精度を達成し、トップMLLMは50%以下である。
これは、真に堅牢な視覚知覚を持つMLLMに対して、緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-28T13:31:32Z) - Evaluating Graphical Perception with Multimodal LLMs [2.090547583226381]
マルチモーダル大言語モデル(MLLM)は画像の解析と理解において著しく進歩している。
可視化のために、MLLMはグラフィカルな知覚タスクに適用した場合、どのように機能するか?
本研究は主に、微調整および事前訓練されたモデルとゼロショットを用いて、人間の視覚的知覚と密に一致しているかどうかを判断する。
論文 参考訳(メタデータ) (2025-04-05T16:14:08Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Do Multimodal Large Language Models See Like Humans? [50.938168841711445]
MLLM(Multimodal Large Language Models)は、様々なビジョンタスクにおいて、近年の大規模言語モデルの進歩を活用して、印象的な成果を上げている。
現在のベンチマークでは、この観点からMLLMを評価する能力がない。
MLLMと人間の視覚システムとの整合性を評価するための大規模ベンチマークであるHVSBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-12T18:59:25Z) - Visual Perception in Text Strings [24.60102607739684]
本研究では,ASCIIアートを代表的アーティファクトとして選択し,各概念を表現するための線と明るさを文字で表現する。
評価データセットを構築することにより,このタスクにおけるモデル性能をベンチマークし,モデルの視覚的知覚能力を引き出すためのトレーニングセットを収集する。
その結果、人間は100%近い精度を達成できるが、最先端のLSMとMLLMははるかに遅れていることがわかった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。