論文の概要: The Perceptual Observatory Characterizing Robustness and Grounding in MLLMs
- arxiv url: http://arxiv.org/abs/2512.15949v1
- Date: Wed, 17 Dec 2025 20:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.816996
- Title: The Perceptual Observatory Characterizing Robustness and Grounding in MLLMs
- Title(参考訳): MLLMのロバスト性・グラウンド化を特徴とする知覚観測
- Authors: Tejas Anvekar, Fenil Bardoliya, Pavan K. Turaga, Chitta Baral, Vivek Gupta,
- Abstract要約: The Perceptual Observatoryは、顔マッチングやテキスト・イン・ビジョンの理解機能など、MLLMを垂直方向に特徴付けるフレームワークである。
知覚観測所はリーダーボードの精度を超えて、MLLMが摂動下での知覚的接地と関係構造をどのように保存するかについての洞察を得る。
- 参考スコア(独自算出の注目度): 44.71703930770065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have yielded increasingly powerful models, yet their perceptual capacities remain poorly characterized. In practice, most model families scale language component while reusing nearly identical vision encoders (e.g., Qwen2.5-VL 3B/7B/72B), which raises pivotal concerns about whether progress reflects genuine visual grounding or reliance on internet-scale textual world knowledge. Existing evaluation methods emphasize end-task accuracy, overlooking robustness, attribution fidelity, and reasoning under controlled perturbations. We present The Perceptual Observatory, a framework that characterizes MLLMs across verticals like: (i) simple vision tasks, such as face matching and text-in-vision comprehension capabilities; (ii) local-to-global understanding, encompassing image matching, grid pointing game, and attribute localization, which tests general visual grounding. Each vertical is instantiated with ground-truth datasets of faces and words, systematically perturbed through pixel-based augmentations and diffusion-based stylized illusions. The Perceptual Observatory moves beyond leaderboard accuracy to yield insights into how MLLMs preserve perceptual grounding and relational structure under perturbations, providing a principled foundation for analyzing strengths and weaknesses of current and future models.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の最近の進歩は、ますます強力なモデルを生み出している。
実際には、ほとんどのモデルファミリーは、ほぼ同じ視覚エンコーダ(Qwen2.5-VL 3B/7B/72B)を再利用しながら、言語コンポーネントをスケールする。
既存の評価手法では、エンドタスクの精度、頑健さ、帰属の忠実さ、制御された摂動下での推論が重視されている。
The Perceptual Observatoryという,MLLMを垂直方向に特徴付けるフレームワークを紹介します。
(i)顔マッチングやテキスト・イン・ビジョン理解機能などの単純な視覚タスク
(2)画像マッチング,グリッドポインティングゲーム,属性ローカライゼーションを包含した局所言語間理解。
各垂直部は、顔と単語の接地構造データセットでインスタンス化され、ピクセルベースの拡張と拡散ベースのスタイリングイリュージョンによって体系的に摂動される。
知覚観測所は、リーダーボードの精度を超えて、MLLMが摂動下での知覚的基盤と関係構造をどのように保存するかについての洞察を得る。
関連論文リスト
- From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs [57.01486941224062]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて大きな成功を収めている。
画像内の異なる場所に同じキー情報を置くと、モデルがどのように反応するかに焦点を当てる。
本研究では,すべての画像トークンに同一位置埋め込みを割り当てるシンプルかつ効果的な機構であるBaPAを導入する。
論文 参考訳(メタデータ) (2025-09-26T07:07:03Z) - MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness [50.33343842822694]
MMPerspectiveはマルチモーダルな大言語モデルの視点理解を評価するために設計された最初のベンチマークである。
このベンチマークでは,実世界の2,711の合成画像と5,083の問合せ対でキー機能を調べている。
43の最先端MLLMの総合評価により,重要な限界が明らかになった。
論文 参考訳(メタデータ) (2025-05-26T18:20:22Z) - Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。