論文の概要: GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation
- arxiv url: http://arxiv.org/abs/2512.17495v1
- Date: Fri, 19 Dec 2025 12:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.370349
- Title: GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation
- Title(参考訳): GroundingME:多次元評価によるMLLMの視覚的グラウンドギャップの抽出
- Authors: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、既存のベンチマークで印象的なスコアを得る。
グラウンディングMEは、4つの重要な次元にわたるモデルに体系的に挑戦する。
25の最先端MLLMを評価すると、大きな能力ギャップが明らかになる。
- 参考スコア(独自算出の注目度): 40.999498663740454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.
- Abstract(参考訳): 自然言語の記述からオブジェクトをローカライズするビジュアルグラウンドは、言語と視覚の理解の間に重要な橋渡しとなる。
MLLM(Multimodal large language model)は既存のベンチマークで印象的なスコアを得られるが、根本的な疑問が残る。
現在のベンチマークでは、人間が不明瞭な参照を積極的にナビゲートし、接地が不可能であるかどうかを認識する現実世界の複雑さを捉えることができません。
MLLMの真の能力を厳格に評価するために,(1)識別,識別,非常に類似したオブジェクトの識別,(2)空間的,複雑な関係記述の理解,(3)オクルージョンや小さなオブジェクトの扱い,(4)拒否,未解決クエリの認識という,4つの重要な次元にわたるモデルに体系的に挑戦するベンチマークであるGundingMEを紹介した。
自動生成と人間の検証を組み合わせた慎重なキュレーションにより、実世界の複雑さを反映した1,005の挑戦的な例を作成します。
最高のモデルは45.1%の精度しか達成していないのに対して、ほとんどのモデルは拒絶タスクで0%のスコアを獲得し、不在を認めずに反射的に物体を幻覚させ、配置に重大な安全上の懸念を生じさせる。
我々は,(1)テストタイムスケーリングが複雑なグラウンド化を改善するための思考軌道による最適応答を選択すること,(2)データ混合トレーニングは,不確定なクエリの認識をモデルに教えることによって,拒否精度を0%から27.9%に向上させる,という2つの改善策を探求する。
グラウンディングMEは、MLLMの現在の限界と、人間レベルの視覚的グラウンド化へのロードマップを明らかにする診断ツールとして機能する。
関連論文リスト
- MazeEval: A Benchmark for Testing Sequential Decision-Making in Language Models [0.0679877553227375]
本稿では,大規模言語モデルにおける純粋空間推論の分離と評価を目的としたベンチマークであるMazeEvalを紹介する。
我々は,英語とアイスランド語で同一の迷路にまたがる8つの最先端LLMを評価し,空間能力の言語間移動を評価する。
論文 参考訳(メタデータ) (2025-07-27T19:33:45Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。