論文の概要: The Spatial Blindspot of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.09954v1
- Date: Thu, 15 Jan 2026 00:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.931361
- Title: The Spatial Blindspot of Vision-Language Models
- Title(参考訳): 視覚・言語モデルの空間的ブラインドスポット
- Authors: Nahid Alam, Leema Krishna Murali, Siddhant Bharadwaj, Patrick Liu, Timothy Chung, Drishti Sharma, Akshata A, Kranthi Kiran, Wesley Tam, Bala Krishna S Vegesna,
- Abstract要約: 視覚言語モデル(VLM)は急速に進歩しているが、空間的関係を捉える能力は依然として盲点である。
この空間的認識の欠如は、VLM設計における欠落次元であり、空間的接地を必要とするアプリケーションのボトルネックである、と我々は主張する。
- 参考スコア(独自算出の注目度): 3.9393480686002715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have advanced rapidly, but their ability to capture spatial relationships remains a blindspot. Current VLMs are typically built with contrastive language-image pretraining (CLIP) style image encoders. The training recipe often flattens images into 1D patch sequences, discarding the 2D structure necessary for spatial reasoning. We argue that this lack of spatial awareness is a missing dimension in VLM design and a bottleneck for applications requiring spatial grounding, such as robotics and embodied AI. To address this, we investigate (i) image encoders trained with alternative objectives and (ii) 2D positional encodings. Our experiments show that these architectural choices can lead to improved spatial reasoning on several benchmarks.
- Abstract(参考訳): 視覚言語モデル(VLM)は急速に進歩しているが、空間的関係を捉える能力は依然として盲点である。
現在のVLMは、対照的な言語イメージ事前訓練(CLIP)スタイルの画像エンコーダで構築される。
トレーニングレシピは、しばしば画像を1Dパッチシーケンスにフラット化し、空間的推論に必要な2D構造を捨てる。
この空間認識の欠如は、VLM設計における欠落次元であり、ロボット工学や組み込みAIのような空間接地を必要とするアプリケーションのボトルネックである、と我々は主張する。
この問題に対処するため、我々は調査する。
一 代替目的により訓練された画像エンコーダ及び
(ii)2次元位置符号化
実験の結果、これらのアーキテクチャの選択は、いくつかのベンチマークにおける空間的推論の改善につながることが示された。
関連論文リスト
- GenSpace: Benchmarking Spatially-Aware Image Generation [76.98817635685278]
人間は直感的に、写真のために3D空間でシーンを作成し、配置する。
高度なAI画像生成者は、テキストや画像プロンプトから画像を作成する際に、同様の3D空間認識を備えたシーンを計画できるだろうか?
我々は、現在の画像生成モデルの空間的認識を評価するための新しいベンチマークと評価パイプラインであるGenSpaceを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:59:26Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。