Fugu-MT 論文翻訳(概要): Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

論文の概要: Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

arxiv url: http://arxiv.org/abs/2604.01848v2
Date: Fri, 03 Apr 2026 11:47:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 12:42:34.279765
Title: Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance
Title（参考訳）: 意味豊かさと幾何学的推論 : VLMの視覚的不変性の脆弱性
Authors: Jason Qiu, Zachary Meurer, Xavier Thomas, Deepti Ghadiyaram,
Abstract要約: 本研究は, 基本幾何学的変換に基づく最先端のビジョン・ランゲージモデル(VLM)の基本的脆弱性について検討する。現代のVLMはセマンティックなタスクに優れていますが、より基本的なレベルで体系的な失敗を示します。
参考スコア（独自算出の注目度）: 4.177067537825386
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work investigates the fundamental fragility of state-of-the-art Vision-Language Models (VLMs) under basic geometric transformations. While modern VLMs excel at semantic tasks such as recognizing objects in canonical orientations and describing complex scenes, they exhibit systematic failures at a more fundamental level: lack of robust spatial invariance and equivariance required to reliably determine object identity under simple rotations, scaling, and identity transformations. We demonstrate this limitation through a systematic evaluation across diverse visual domains, including symbolic sketches, natural photographs, and abstract art. Performance drops sharply as semantic content becomes sparse, and this behavior is observed across architectures, model capacities, and prompting strategies. Overall, our results reveal a systematic gap between semantic understanding and spatial reasoning in current VLMs, highlighting the need for stronger geometric grounding in future multimodal systems.
Abstract（参考訳）: 本研究は, 基本幾何学的変換に基づく最先端のビジョン・ランゲージモデル(VLM)の基本的脆弱性について検討する。現代のVLMは、標準的な向きのオブジェクトの認識や複雑なシーンの記述といったセマンティックなタスクに優れていますが、より基本的なレベルでは体系的な失敗を示しています。シンボルスケッチや自然写真,抽象芸術など,さまざまな視覚領域の体系的な評価を通じて,この制限を実証する。セマンティックコンテンツがスパース化するにつれて、パフォーマンスは急激に低下し、この挙動はアーキテクチャ、モデル能力、そして迅速な戦略で観察される。以上の結果から,現在のVLMにおける意味的理解と空間的推論の体系的なギャップが明らかとなり,将来のマルチモーダルシステムにおいて,より強力な幾何学的接地の必要性が浮かび上がっている。

関連論文リスト

Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文参考訳（メタデータ） (2026-01-20T11:59:19Z)
The Perceptual Observatory Characterizing Robustness and Grounding in MLLMs [44.71703930770065]
The Perceptual Observatoryは、顔マッチングやテキスト・イン・ビジョンの理解機能など、MLLMを垂直方向に特徴付けるフレームワークである。知覚観測所はリーダーボードの精度を超えて、MLLMが摂動下での知覚的接地と関係構造をどのように保存するかについての洞察を得る。
論文参考訳（メタデータ） (2025-12-17T20:22:23Z)
Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-12-01T16:01:41Z)
Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文参考訳（メタデータ） (2025-04-23T14:01:32Z)
MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。 MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文参考訳（メタデータ） (2025-03-26T17:30:41Z)
Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文参考訳（メタデータ） (2024-02-23T16:50:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。