論文の概要: VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.09826v1
- Date: Tue, 10 Mar 2026 15:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.438156
- Title: VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models
- Title(参考訳): VLM-Loc:ビジョンランゲージモデルによるポイントクラウドマップのローカライズ
- Authors: Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu,
- Abstract要約: テキスト・ツー・ポイント・クラウド(T2P)のローカライゼーションは、自然言語記述から3次元ポイント・クラウドマップ内の正確な空間位置を推定することを目的としている。
大規模視覚言語モデルの空間的推論能力を活用するフレームワークであるVLM-Locを提案する。
CityLocの実験では、VLM-Locは最先端の手法に比べて精度と堅牢性に優れていた。
- 参考スコア(独自算出の注目度): 33.748083718525756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-point-cloud (T2P) localization aims to infer precise spatial positions within 3D point cloud maps from natural language descriptions, reflecting how humans perceive and communicate spatial layouts through language. However, existing methods largely rely on shallow text-point cloud correspondence without effective spatial reasoning, limiting their accuracy in complex environments. To address this limitation, we propose VLM-Loc, a framework that leverages the spatial reasoning capability of large vision-language models (VLMs) for T2P localization. Specifically, we transform point clouds into bird's-eye-view (BEV) images and scene graphs that jointly encode geometric and semantic context, providing structured inputs for the VLM to learn cross-modal representations bridging linguistic and spatial semantics. On top of these representations, we introduce a partial node assignment mechanism that explicitly associates textual cues with scene graph nodes, enabling interpretable spatial reasoning for accurate localization. To facilitate systematic evaluation across diverse scenes, we present CityLoc, a benchmark built from multi-source point clouds for fine-grained T2P localization. Experiments on CityLoc demonstrate VLM-Loc achieves superior accuracy and robustness compared to state-of-the-art methods. Our code, model, and dataset are available at \href{https://github.com/MCG-NKU/nku-3d-vision}{repository}.
- Abstract(参考訳): テキスト・ツー・ポイント・クラウド(T2P)のローカライゼーションは、自然言語の記述から3次元ポイント・クラウドマップ内の正確な空間的位置を推定することを目的としており、人間が言語を通して空間的レイアウトを知覚し、コミュニケーションする方法を反映している。
しかし、既存の手法は、空間的推論を効果的に行わずに、浅いテキストポイントのクラウド対応に大きく依存しており、複雑な環境での精度を制限している。
この制限に対処するために,大規模な視覚言語モデル(VLM)の空間的推論能力を活用してT2Pローカライゼーションを実現するフレームワークであるVLM-Locを提案する。
具体的には、点雲を鳥の目視(BEV)画像やシーングラフに変換し、幾何学的・意味的コンテキストを共同でエンコードし、VLMが言語的・空間的意味論をブリッジするクロスモーダル表現を学習するための構造化された入力を提供する。
これらの表現に加えて、テキストキューとシーングラフノードを明示的に関連付ける部分ノード割り当て機構を導入し、正確な位置推定のための解釈可能な空間推論を可能にする。
多様な場面にまたがる系統的な評価を容易にするため,T2Pの微粒化のためのマルチソース点雲を用いたベンチマークであるCityLocを提案する。
CityLocの実験では、VLM-Locは最先端の手法に比べて精度と堅牢性に優れていた。
私たちのコード、モデル、データセットは \href{https://github.com/MCG-NKU/nku-3d-vision}{repository} で公開されています。
関連論文リスト
- Text2Loc++: Generalizing 3D Point Cloud Localization from Natural Language [44.7011717447999]
我々は,言語とポイントクラウド間の効果的な相互アライメントを目的とした,新しいニューラルネットワークであるText2Loc++を提案する。
ベンチマークを支援するため,多様な都市シーンからカラーおよび非カラーポイント雲をカバーする新しい都市スケールデータセットを導入した。
グローバルな場所認識の段階では、Text2Loc++は、事前訓練された言語モデルと階層変換器と、文レベルの意味論のためのMax pooling(HTM)を組み合わせる。
微細なローカライゼーションの段階では、明示的なテキストインスタンスマッチングを完全に取り除き、軽量で強力なフレームワークを設計する。
論文 参考訳(メタデータ) (2025-11-19T10:19:45Z) - A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。
既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。
本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:20:38Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。
既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。
提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文 参考訳(メタデータ) (2024-04-27T09:46:49Z) - O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation [9.431926560072412]
ボクセルをベースとした言語と幾何学的特徴を利用してオープン語彙場を作成するO2Vマッピングを提案する。
オープン語彙オブジェクトのローカライゼーションとセマンティックセグメンテーションの実験は、O2Vマッピングが言語シーンのオンライン構築を実現することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:54:43Z) - Text2Loc: 3D Point Cloud Localization from Natural Language [49.01851743372889]
我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。
我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
論文 参考訳(メタデータ) (2023-11-27T16:23:01Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。