論文の概要: Lost in Space? Vision-Language Models Struggle with Relative Camera Pose Estimation
- arxiv url: http://arxiv.org/abs/2601.22228v1
- Date: Thu, 29 Jan 2026 19:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.010975
- Title: Lost in Space? Vision-Language Models Struggle with Relative Camera Pose Estimation
- Title(参考訳): 空間における損失 : 相対的カメラポーズ推定を用いた視覚言語モデル
- Authors: Ken Deng, Yifu Qiu, Yoni Kasten, Shay B. Cohen, Yftah Ziser,
- Abstract要約: VLM(Vision-Language Models)は、3次元空間構造に対する限られた理解に比べて、2次元の知覚と意味的推論において良好に機能する。
本稿では,VRRPI-Benchについて紹介する。
また、個別の運動自由度を分離する診断ベンチマークであるVRRPI-Diagを提案する。
- 参考スコア(独自算出の注目度): 37.0801171856967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) perform well in 2D perception and semantic reasoning compared to their limited understanding of 3D spatial structure. We investigate this gap using relative camera pose estimation (RCPE), a fundamental vision task that requires inferring relative camera translation and rotation from a pair of images. We introduce VRRPI-Bench, a benchmark derived from unlabeled egocentric videos with verbalized annotations of relative camera motion, reflecting realistic scenarios with simultaneous translation and rotation around a shared object. We further propose VRRPI-Diag, a diagnostic benchmark that isolates individual motion degrees of freedom. Despite the simplicity of RCPE, most VLMs fail to generalize beyond shallow 2D heuristics, particularly for depth changes and roll transformations along the optical axis. Even state-of-the-art models such as GPT-5 ($0.64$) fall short of classic geometric baselines ($0.97$) and human performance ($0.92$). Moreover, VLMs exhibit difficulty in multi-image reasoning, with inconsistent performance (best $59.7\%$) when integrating spatial cues across frames. Our findings reveal limitations in grounding VLMs in 3D and multi-view spatial reasoning.
- Abstract(参考訳): VLM(Vision-Language Models)は、3次元空間構造に対する限られた理解に比べて、2次元の知覚と意味的推論において良好に機能する。
このギャップを相対カメラポーズ推定 (RCPE) を用いて検討し, 画像から相対カメラの変換と回転を推定する基本的な視覚課題について検討する。
本稿では,VRRPI-Benchについて述べる。VRRPI-Benchは,相対的なカメラの動きの言葉化アノテーションを付したラベル付きエゴセントリックビデオから派生したベンチマークで,オブジェクトの同時翻訳と回転による現実的なシナリオを反映したものだ。
さらに,個々の運動自由度を分離する診断ベンチマークであるVRRPI-Diagを提案する。
RCPEの単純さにもかかわらず、ほとんどのVLMは浅い2次元ヒューリスティック(特に光軸に沿った深さ変化やロール変換)を超えて一般化することができない。
GPT-5(0.64ドル)のような最先端のモデルでさえ、古典的な幾何学的ベースライン(0.97ドル)と人間のパフォーマンス(0.92ドル)が不足している。
さらに、VLMはフレーム間の空間的手がかりを統合する際に、一貫性のない性能($59.7\%)でマルチイメージ推論の難しさを示す。
以上の結果から,3次元および多視点空間推論におけるVLMの接地限界が明らかとなった。
関連論文リスト
- LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models [50.50563228383038]
一般的な視覚言語モデルにおける3次元空間的および長時間の映像理解を改善するために,LASTを提案する。
LASTは,3つの空間的理解,4つの映像理解,3つの画像理解タスクを含む,様々なベンチマークにおいて大きな利益をもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-24T16:13:26Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object
Detection [11.13693561702228]
支配的なマルチカメラ3D検出パラダイムは、明示的な3D特徴構造に基づいている。
他の方法では、画像トークンと3Dオブジェクトの関係を構築するために幾何学的位置符号化が暗黙的に導入されている。
本稿では,インスタンス誘導型監視モジュールと空間アライメントモジュールを備えたFocal-PETRを提案する。
論文 参考訳(メタデータ) (2022-12-11T13:38:54Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。