論文の概要: Multimodal Spatial Language Maps for Robot Navigation and Manipulation
- arxiv url: http://arxiv.org/abs/2506.06862v1
- Date: Sat, 07 Jun 2025 17:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.534784
- Title: Multimodal Spatial Language Maps for Robot Navigation and Manipulation
- Title(参考訳): ロボットナビゲーションと操作のためのマルチモーダル空間言語マップ
- Authors: Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard,
- Abstract要約: マルチモーダル空間言語マップは、事前訓練されたマルチモーダル特徴と環境の3次元再構成を融合する空間地図表現である。
視覚言語マップ(VLMaps)と音声視覚言語マップ(AVLMaps)の拡張の2つの例を示す。
これらの機能は、移動ロボットやテーブルトップマニピュレータに拡張され、視覚、オーディオ、空間的手がかりによって案内されるナビゲーションとインタラクションをサポートする。
- 参考スコア(独自算出の注目度): 32.852583241593436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounding language to a navigating agent's observations can leverage pretrained multimodal foundation models to match perceptions to object or event descriptions. However, previous approaches remain disconnected from environment mapping, lack the spatial precision of geometric maps, or neglect additional modality information beyond vision. To address this, we propose multimodal spatial language maps as a spatial map representation that fuses pretrained multimodal features with a 3D reconstruction of the environment. We build these maps autonomously using standard exploration. We present two instances of our maps, which are visual-language maps (VLMaps) and their extension to audio-visual-language maps (AVLMaps) obtained by adding audio information. When combined with large language models (LLMs), VLMaps can (i) translate natural language commands into open-vocabulary spatial goals (e.g., "in between the sofa and TV") directly localized in the map, and (ii) be shared across different robot embodiments to generate tailored obstacle maps on demand. Building upon the capabilities above, AVLMaps extend VLMaps by introducing a unified 3D spatial representation integrating audio, visual, and language cues through the fusion of features from pretrained multimodal foundation models. This enables robots to ground multimodal goal queries (e.g., text, images, or audio snippets) to spatial locations for navigation. Additionally, the incorporation of diverse sensory inputs significantly enhances goal disambiguation in ambiguous environments. Experiments in simulation and real-world settings demonstrate that our multimodal spatial language maps enable zero-shot spatial and multimodal goal navigation and improve recall by 50% in ambiguous scenarios. These capabilities extend to mobile robots and tabletop manipulators, supporting navigation and interaction guided by visual, audio, and spatial cues.
- Abstract(参考訳): ナビゲーションエージェントの観察に言語を接地することは、事前訓練されたマルチモーダル基盤モデルを利用して、知覚とオブジェクトやイベントの記述を一致させることができる。
しかし、従来のアプローチは環境マッピングから切り離されたままであり、幾何地図の空間的精度が欠如している。
そこで本研究では,環境の3次元再構成で事前学習したマルチモーダル特徴を融合する空間地図表現として,マルチモーダル空間言語マップを提案する。
標準的な探索を使って、これらのマップを自律的に構築します。
本稿では,視覚言語マップ(VLMaps)と音声情報を追加して得られる音声視覚言語マップ(AVLMaps)の拡張の2つの例を示す。
大型言語モデル(LLM)と組み合わせると、VLMapsは使えます。
(i) 自然言語コマンドをオープン語彙空間目標(例:「ソファとテレビの間」)に翻訳し、地図上で直接位置付けし、
(二)異なるロボットの実施形態間で共有し、必要に応じて調整された障害物マップを作成すること。
上記の機能に基づいて、AVLMapsはVLMapsを拡張し、事前訓練されたマルチモーダル基礎モデルの機能を融合することで、オーディオ、視覚、言語キューを統合する統合された3D空間表現を導入する。
これにより、ロボットはマルチモーダルなゴールクエリ(テキスト、画像、オーディオスニペットなど)をナビゲーションのための空間的ロケーションにグラウンドすることができる。
さらに、多様な感覚入力が組み込まれたことにより、曖昧な環境における目標の曖昧さが著しく向上する。
シミュレーションと実世界の設定実験により,マルチモーダルな空間言語マップにより,ゼロショット空間およびマルチモーダルな目標ナビゲーションが可能となり,曖昧なシナリオでは50%のリコール改善が達成された。
これらの機能は、移動ロボットやテーブルトップマニピュレータに拡張され、視覚、オーディオ、空間的手がかりによって案内されるナビゲーションとインタラクションをサポートする。
関連論文リスト
- FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment [16.987872206495897]
FindAnythingは、視覚言語情報を高密度のボリュームサブマップに組み込むオープンワールドマッピングフレームワークである。
当社のシステムは,MAVなどのリソース制約されたデバイスにデプロイされる最初のシステムである。
論文 参考訳(メタデータ) (2025-04-11T15:12:05Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Audio Visual Language Maps for Robot Navigation [30.33041779258644]
音声, 視覚, 言語情報からのクロスモーダル情報を格納するための3次元空間地図表現を統一したAVLMap(Audio-Visual-Language Map)を提案する。
AVLMapsは、インターネット規模で事前訓練されたマルチモーダル基礎モデルのオープン語彙機能を統合する。
ナビゲーションの文脈において、AVLMapsは、例えば、テキスト記述、画像、ランドマークの音声スニペットなどのマルチモーダルクエリに基づいて、ロボットシステムが地図内の目標をインデックスできることを示す。
論文 参考訳(メタデータ) (2023-03-13T23:17:51Z) - ConceptFusion: Open-set Multimodal 3D Mapping [91.23054486724402]
ConceptFusionは基本的にオープンセットのシーン表現である。
これは、閉じた概念や本質的にはマルチモーダル以上の推論を可能にする。
実世界の多くのデータセット上でConceptFusionを評価する。
論文 参考訳(メタデータ) (2023-02-14T18:40:26Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Visual Language Maps for Robot Navigation [30.33041779258644]
ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータに基づいて事前訓練された市販の視覚言語モデルを用いて行うことができる。
実世界の3次元再構成により,事前学習した視覚言語特徴を直接融合する空間地図表現 VLMaps を提案する。
論文 参考訳(メタデータ) (2022-10-11T18:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。