論文の概要: Predicting Camera Pose from Perspective Descriptions for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2602.06041v1
- Date: Thu, 05 Feb 2026 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.159541
- Title: Predicting Camera Pose from Perspective Descriptions for Spatial Reasoning
- Title(参考訳): 空間推論のための視点記述からのカメラポース予測
- Authors: Xuejun Zhang, Aditi Tiwari, Zhenhailong Wang, Heng Ji,
- Abstract要約: 本稿では、カメラポーズを、クロスビュー融合とノベルビュー推論のための明示的な幾何学的アンカーとして利用する、ポーズ対応マルチイメージフレームワークCAMCUEを紹介する。
CAMCUEは、ビュー毎のポーズを視覚トークンに注入し、ターゲットカメラのポーズに自然言語の視点記述を基盤とし、応答をサポートするためにポーズ条件の想定されたターゲットビューを合成する。
CAMCUEは、全体的な精度を9.06%向上させ、目標ポーズを自然言語の視点記述から予測する。
- 参考スコア(独自算出の注目度): 47.32183356464973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-image spatial reasoning remains challenging for current multimodal large language models (MLLMs). While single-view perception is inherently 2D, reasoning over multiple views requires building a coherent scene understanding across viewpoints. In particular, we study perspective taking, where a model must build a coherent 3D understanding from multi-view observations and use it to reason from a new, language-specified viewpoint. We introduce CAMCUE, a pose-aware multi-image framework that uses camera pose as an explicit geometric anchor for cross-view fusion and novel-view reasoning. CAMCUE injects per-view pose into visual tokens, grounds natural-language viewpoint descriptions to a target camera pose, and synthesizes a pose-conditioned imagined target view to support answering. To support this setting, we curate CAMCUE-DATA with 27,668 training and 508 test instances pairing multi-view images and poses with diverse target-viewpoint descriptions and perspective-shift questions. We also include human-annotated viewpoint descriptions in the test split to evaluate generalization to human language. CAMCUE improves overall accuracy by 9.06% and predicts target poses from natural-language viewpoint descriptions with over 90% rotation accuracy within 20° and translation accuracy within a 0.5 error threshold. This direct grounding avoids expensive test-time search-and-match, reducing inference time from 256.6s to 1.45s per example and enabling fast, interactive use in real-world scenarios.
- Abstract(参考訳): 現在のマルチモーダル大言語モデル (MLLM) では, マルチモーダル空間推論が依然として困難である。
シングルビューの知覚は本質的に2Dであるが、複数のビューに対する推論は、視点をまたいだ一貫性のあるシーン理解を構築する必要がある。
特に,モデルが多視点観察からコヒーレントな3次元理解を構築し,それを新たな言語特定視点から推論するために利用する視点抽出について検討する。
本稿では、カメラポーズを、クロスビュー融合とノベルビュー推論のための明示的な幾何学的アンカーとして利用する、ポーズ対応マルチイメージフレームワークCAMCUEを紹介する。
CAMCUEは、ビュー毎のポーズを視覚トークンに注入し、ターゲットカメラのポーズに自然言語の視点記述を基盤とし、応答をサポートするためにポーズ条件の想定されたターゲットビューを合成する。
この設定を支援するために,CAMCUE-DATAを27,668のトレーニングと508のテストインスタンスでキュレートし,多視点画像をペアリングし,多様な視点記述と視点シフトの質問を提示する。
また、人間の言語への一般化を評価するために、テストスプリットに人手による視点記述も含んでいる。
CAMCUEは、全体的な精度を9.06%向上させ、20°で90%以上の回転精度と0.5エラー閾値で翻訳精度を持つ自然言語の視点記述からターゲットポーズを予測する。
この直接接地は、高価なテスト時間検索とマッチを回避し、推論時間を256.6sから1.45sまで削減し、現実世界のシナリオで高速でインタラクティブな使用を可能にする。
関連論文リスト
- PAOLI: Pose-free Articulated Object Learning from Sparse-view Images [27.16160315662701]
本稿では,スパースビュー,アンポーズ画像から明瞭なオブジェクト表現を学習するための新しいフレームワークを提案する。
当社のアプローチは1音節あたり4ビューで運用されており、カメラの監視は行いません。
論文 参考訳(メタデータ) (2025-09-04T14:51:03Z) - REVEAL -- Reasoning and Evaluation of Visual Evidence through Aligned Language [0.1388281922732496]
我々は、この偽造検出の問題を、大規模視覚言語モデルのセマンティックアライメント機能を活用して、プロンプト駆動型視覚推論タスクとして構成する。
本研究では, 画像全体の物理, セマンティクス, パースペクティブ, リアリズムに依存する全体的シーンレベル評価と, 画像を複数の領域に分割して解析する領域ワイド異常検出の2つの手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T00:42:02Z) - One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。
本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。
複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文 参考訳(メタデータ) (2025-05-07T03:54:59Z) - Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos [66.1935609072708]
LangViewは、ビュー依存のキャプション予測の相対的精度を、擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークである。
推論中、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。