論文の概要: VLM-GLoc: Vision-Language Model Enhanced Monte Carlo Localization for Robust Semantic Global Localization in Cluttered Quasi-Static Environments
- arxiv url: http://arxiv.org/abs/2605.30506v1
- Date: Thu, 28 May 2026 19:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.198058
- Title: VLM-GLoc: Vision-Language Model Enhanced Monte Carlo Localization for Robust Semantic Global Localization in Cluttered Quasi-Static Environments
- Title(参考訳): VLM-GLOC:視覚言語モデルによるモンテカルロ局所化の強化 : クラッタ付き準静的環境におけるロバストな意味的グローバル局在化
- Authors: Shivendra Agrawal, Bradley Hayes,
- Abstract要約: VLM-GLocは階層的モンテカルロ局所化の手法である。
実世界の2つの環境 – 携帯電話を備えた食料品店と,四足歩行の3700平方フィートのラボスペース – で評価した。
VLM-GLocは、それぞれ70%と74%のグローバルなローカライゼーション成功を達成し、従来の幾何学のみのベースラインとドメイン固有のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 2.049702429898688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global localization in geometrically aliased, quasi-static environments such as grocery stores, offices, schools, and hospitals poses a significant challenge for mobile robots. Grocery stores with parallel aisles and a long tailed distribution of products, as well as offices and labs with repetitive furniture such as chairs, desks, monitors, and doors, exemplify common indoor environments that present geometric and even semantic ambiguity. Traditional approaches rely either on distinct geometric features or on domain-specific vision pipelines that struggle with long-tail semantic distributions and transient visual clutter. We present VLM-GLoc, a method for hierarchical semantic Monte Carlo Localization (MCL) that leverages open-vocabulary Vision-Language Models (VLMs) as a unified semantic observation front-end. We hypothesize a three-fold benefit from VLMs: (1) extracting highly discriminative rich text features, (2) implicit quality filtering of blurry or dynamic objects, and (3) permanence reasoning for targeted data augmentation. We introduce an inverse semantic proposal mechanism that seeds particles via text-to-map retrieval. Evaluated across two real-world environments with different characteristics and two different platforms: a 3,500 sq. ft. grocery store with a cellphone and a 3,700 sq. ft. lab space with a quadruped, VLM-GLoc achieves 70% and 74% global localization success respectively, substantially outperforming traditional geometry-only and domain-specific baselines.
- Abstract(参考訳): 食料品店、オフィス、学校、病院など、幾何学的に照らされた準静環境におけるグローバルなローカライゼーションは、移動ロボットにとって重要な課題である。
グロセリーには平行通路があり、商品の長い尾尾の分布、椅子、机、モニター、ドアなどの繰り返し家具を備えたオフィスや研究室があり、幾何学的かつセマンティックなあいまいさを示す一般的な屋内環境を例示している。
伝統的なアプローチは、異なる幾何学的特徴や、長い尾のセマンティックな分布と過渡的な視覚的乱れに苦しむドメイン固有のビジョンパイプラインに依存する。
本稿では,オープン語彙の視覚言語モデル(VLM)を統合的セマンティック・オブザーバーのフロントエンドとして活用する,階層的セマンティック・モンテカルロ・ローカライゼーション(MCL)の手法であるVLM-GLocを提案する。
VLMの3倍の利点は,(1)高度に識別可能なリッチテキスト特徴の抽出,(2)ぼやけたオブジェクトや動的オブジェクトの暗黙的な品質フィルタリング,(3)ターゲットデータ拡張のための永続的推論である。
テキスト・ツー・マップ検索により粒子をシードする逆意味的提案機構を提案する。
異なる特性と2つの異なるプラットフォームを持つ2つの現実世界環境、すなわち3500 sqで評価された。
携帯電話と3700 sqの食料品店です
VLM-GLOCは、それぞれ70%と74%のグローバルなローカライゼーション成功を達成し、従来の幾何学のみのベースラインとドメイン固有のベースラインを大幅に上回っている。
関連論文リスト
- OmniGF: A Dual-Branch Vision-Language Framework for Unified Gaze Following [59.53720386342017]
拡張性のある多対人視線推論に基礎的な視覚言語モデルを適用する統合視覚言語フレームワークを提案する。
すべての個人をモデル化することにより、OmniGFは正確な空間的視線目標推定、意味的視線予測、複雑な社会的視線推定をシームレスに統合する。
論文 参考訳(メタデータ) (2026-05-26T00:08:06Z) - GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology [2.049702429898688]
複雑で密集した環境は、人間や具体化されたAIにとって大きな空間的基盤となる。
GISTは、コンシューマグレードの移動点クラウドを意味的に注釈付けされたナビゲーショントポロジに変換するマルチモーダルな知識抽出パイプラインである。
本アーキテクチャでは,シーンを2次元占有マップに抽出し,そのトポロジ的レイアウトを抽出し,知的かつセマンティックな選択を通じて軽量なセマンティック層をオーバーレイする。
論文 参考訳(メタデータ) (2026-04-16T19:59:52Z) - The Dual Mechanisms of Spatial Reasoning in Vision-Language Models [38.440901436153716]
マルチモーダルタスクは、オブジェクトとその特性と空間的関係を関連付けるために視覚言語モデル(VLM)を必要とする。
本稿では,VLMが2つの同時的機構に依存していることを示す。
本研究では,全画像トークンの空間的表現を世界規模で拡張することで,自然画像の空間的推論性能が向上することを示す。
論文 参考訳(メタデータ) (2026-03-23T17:58:02Z) - HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation [54.325346533275074]
HeROは、階層的意味論を通して幾何学と意味論を結合する拡散ベースのポリシーである。
様々なテストにおいて、HeROは新しい最先端技術を確立し、Place Dual Shoesの成功率を12.3%改善し、6つの挑戦的なポーズ対応タスクで平均6.5%向上した。
論文 参考訳(メタデータ) (2026-02-21T12:29:10Z) - ShelfAware: Real-Time Visual-Inertial Semantic Localization in Quasi-Static Environments with Low-Cost Sensors [39.915234134135765]
我々は,ロバストなグローバルローカライゼーションのためのセマンティック粒子フィルタであるShelfAwareを提案する。
これは、カテゴリ中心のセマンティックな類似性と深度確率を融合させる。
グローバルローカライゼーション100回の試験で96%の成功率を達成した。
論文 参考訳(メタデータ) (2025-12-09T19:33:19Z) - SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文 参考訳(メタデータ) (2025-11-21T15:24:33Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。