論文の概要: Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.18002v1
- Date: Wed, 18 Mar 2026 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.876479
- Title: Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models
- Title(参考訳): Loc3R-VLM:視覚言語モデルを用いた言語型ローカライゼーションと3次元推論
- Authors: Kevin Qu, Haozhe Qi, Mihai Dusmanu, Mahdi Rad, Rui Wang, Marc Pollefeys,
- Abstract要約: Loc3R-VLMは、モノクロビデオ入力から高度な3D理解機能を備えた2Dビジョンランゲージモデルを備えたフレームワークである。
人間の空間認識にインスパイアされたLoc3R-VLMは、グローバルなレイアウト再構築と明示的な状況モデリングという2つの共同目的に依存している。
幾何学的整合性と計量スケールの整合性を確保するために,事前学習した3次元基礎モデルから抽出した軽量カメラポーズの先行情報を活用する。
- 参考スコア(独自算出の注目度): 47.045362895601556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚と言語を接続する上で、目覚ましい進歩を遂げてきたが、それでも空間的理解と視点を考慮した推論に苦慮している。
近年の取り組みは、3次元空間における推論をモデルに明示的に教えるのではなく、幾何学的手がかりで入力表現を強化することを目的としている。
モノクロビデオ入力による高度な3次元理解機能を備えた2次元視覚言語モデルを実現するフレームワークであるLoc3R-VLMを紹介する。
人間の空間認識にインスパイアされたLoc3R-VLMは、シーン構造の全体的表現を構築するためのグローバルなレイアウト再構築と、自我中心の視点を固定するための明示的な状況モデリングという2つの共同目標に依存している。
これらの目的は、3Dコンテキストにおける知覚と言語の両方を基盤とする空間的直接監督を提供する。
幾何学的整合性と計量スケールの整合性を確保するために,事前学習した3次元基礎モデルから抽出した軽量カメラポーズの先行情報を活用する。
Loc3R-VLMは、言語に基づくローカライゼーションにおける最先端のパフォーマンスを実現し、位置および一般的な3D質問応答ベンチマークにおける既存の2Dおよびビデオベースのアプローチよりも優れており、我々の空間監視フレームワークが強力な3D理解を可能にすることを実証している。
プロジェクトページ: https://kevinqu7.github.io/loc3r-vlm
関連論文リスト
- S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning [36.62798449863548]
VLM(Vision-Language Models)は、空間知能にはまだ堅牢性がない。
G$2$VLMは空間知能の2つの基本的な側面を橋渡しする視覚言語モデルである。
論文 参考訳(メタデータ) (2025-11-26T18:59:39Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [61.21302433849139]
VLN(Vision-and-Language Navigation)は、生体エージェントが空間移動を利用して3D環境をナビゲートするコアタスクである。
ナビゲーション動作予測において3D-VLMを学習するための視覚入力として,言語整列,一般化,階層的な3D表現を利用する動的階層化3D表現モデルDynam3Dを提案する。
我々のDynam3Dは3Dインスタンスのオンラインエンコーディングとローカライズが可能であり、それを動的に更新することで、ナビゲーションのための大規模な探索と長期記憶機能を提供する。
論文 参考訳(メタデータ) (2025-05-16T15:46:27Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。