論文の概要: TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.11831v1
- Date: Fri, 14 Nov 2025 19:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.332783
- Title: TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models
- Title(参考訳): TopoPerception:大規模視覚言語モデルにおけるグローバル視覚知覚のショートカットフリー評価
- Authors: Wenhao Zhou, Hao Zheng, Rong Zhao,
- Abstract要約: LVLM(Large Vision-Language Models)は通常、エンコーダから学習済みのLarge Language Model(LLM)に視覚的特徴を合わせる。
本稿では,LVLMのグローバルな視覚知覚能力を評価するために,トポロジカルな特性を利用するベンチマークであるTopoPerceptionを紹介する。
TopoPerception上での最先端モデルの評価を行い、最も粗い知覚の粒度であっても、全てのモデルがランダムな確率よりは良くないことを示す。
- 参考スコア(独自算出の注目度): 11.7808701773328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) typically align visual features from an encoder with a pre-trained Large Language Model (LLM). However, this makes the visual perception module a bottleneck, which constrains the overall capabilities of LVLMs. Conventional evaluation benchmarks, while rich in visual semantics, often contain unavoidable local shortcuts that can lead to an overestimation of models' perceptual abilities. Here, we introduce TopoPerception, a benchmark that leverages topological properties to rigorously evaluate the global visual perception capabilities of LVLMs across various granularities. Since topology depends on the global structure of an image and is invariant to local features, TopoPerception enables a shortcut-free assessment of global perception, fundamentally distinguishing it from semantically rich tasks. We evaluate state-of-the-art models on TopoPerception and find that even at the coarsest perceptual granularity, all models perform no better than random chance, indicating a profound inability to perceive global visual features. Notably, a consistent trend emerge within model families: more powerful models with stronger reasoning capabilities exhibit lower accuracy. This suggests that merely scaling up models is insufficient to address this deficit and may even exacerbate it. Progress may require new training paradigms or architectures. TopoPerception not only exposes a critical bottleneck in current LVLMs but also offers a lens and direction for improving their global visual perception. The data and code are publicly available at: https://github.com/Wenhao-Zhou/TopoPerception.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は通常、エンコーダから学習済みのLarge Language Model(LLM)に視覚的特徴を合わせる。
しかし、これは視覚知覚モジュールをボトルネックにし、LVLMの全体的な能力を制限する。
従来の評価ベンチマークは、視覚的セマンティクスに富んでいるが、しばしば避けられない局所的ショートカットが含まれており、モデルの知覚能力の過大評価につながる。
本稿では、トポパーセプション(TopoPerception)について紹介する。これは、トポロジカルな特性を利用して、様々な粒度にわたるLVLMのグローバルな視覚的知覚能力を厳格に評価するベンチマークである。
トポロジーは画像のグローバルな構造に依存し、局所的な特徴に不変であるため、トポパーセプションはグローバルな知覚のショートカットのない評価を可能にし、基本的に意味的にリッチなタスクと区別する。
我々は,TopoPerceptionの最先端モデルを評価し,最も粗い知覚の粒度においても,すべてのモデルがランダムな確率で動作し,グローバルな視覚的特徴を知覚できないことを示す。
より強力な推論能力を持つモデルの方が精度が低い。
これは、単にモデルをスケールアップするだけでこの欠点に対処できず、さらに悪化する可能性があることを示唆している。
進歩には新たなトレーニングパラダイムやアーキテクチャが必要だ。
TopoPerceptionは、現在のLVLMにおいて重要なボトルネックを露呈するだけでなく、そのグローバルな視覚的知覚を改善するためのレンズと方向も提供する。
データとコードは、https://github.com/Wenhao-Zhou/TopoPerception.comで公開されている。
関連論文リスト
- SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models [19.005364038603204]
自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。
SC-Tuneは循環型記述子-ロケータシステムの相乗学習を特徴としている。
SC-Tuneは、オブジェクトレベルの視覚言語ベンチマークにおいて、性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-03-20T03:00:21Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models [30.20915403608803]
Griffonは、大規模な視覚言語モデルのための言語プロンプトローカライゼーションデータセットである。
十分に設計されたパイプラインを通じて、エンドツーエンドでトレーニングされる。
精細なRefCOCOシリーズとFlickr30K Entitiesで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-24T15:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。