論文の概要: Audio Visual Language Maps for Robot Navigation
- arxiv url: http://arxiv.org/abs/2303.07522v2
- Date: Mon, 27 Mar 2023 15:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 23:56:47.179443
- Title: Audio Visual Language Maps for Robot Navigation
- Title(参考訳): ロボットナビゲーションのための音声視覚言語マップ
- Authors: Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard
- Abstract要約: 音声, 視覚, 言語情報からのクロスモーダル情報を格納するための3次元空間地図表現を統一したAVLMap(Audio-Visual-Language Map)を提案する。
AVLMapsは、インターネット規模で事前訓練されたマルチモーダル基礎モデルのオープン語彙機能を統合する。
ナビゲーションの文脈において、AVLMapsは、例えば、テキスト記述、画像、ランドマークの音声スニペットなどのマルチモーダルクエリに基づいて、ロボットシステムが地図内の目標をインデックスできることを示す。
- 参考スコア(独自算出の注目度): 30.33041779258644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While interacting in the world is a multi-sensory experience, many robots
continue to predominantly rely on visual perception to map and navigate in
their environments. In this work, we propose Audio-Visual-Language Maps
(AVLMaps), a unified 3D spatial map representation for storing cross-modal
information from audio, visual, and language cues. AVLMaps integrate the
open-vocabulary capabilities of multimodal foundation models pre-trained on
Internet-scale data by fusing their features into a centralized 3D voxel grid.
In the context of navigation, we show that AVLMaps enable robot systems to
index goals in the map based on multimodal queries, e.g., textual descriptions,
images, or audio snippets of landmarks. In particular, the addition of audio
information enables robots to more reliably disambiguate goal locations.
Extensive experiments in simulation show that AVLMaps enable zero-shot
multimodal goal navigation from multimodal prompts and provide 50% better
recall in ambiguous scenarios. These capabilities extend to mobile robots in
the real world - navigating to landmarks referring to visual, audio, and
spatial concepts. Videos and code are available at: https://avlmaps.github.io.
- Abstract(参考訳): 世界でのインタラクションはマルチセンサーな体験だが、多くのロボットは、視覚知覚に頼って、環境をマッピングし、ナビゲートしている。
本研究では,音声,視覚,言語からの情報を保存するための3次元空間地図表現であるAVLMapを提案する。
avlmapsは、インターネットスケールデータで事前トレーニングされたマルチモーダル基礎モデルのオープンボキャブラリ機能を、その機能を集中型の3dボクセルグリッドに融合することで統合する。
ナビゲーションの文脈では,avlmapsによって,テキスト記述や画像,ランドマークの音声スニペットなど,マルチモーダルなクエリに基づいて,ロボットシステムが地図内の目標をインデックス化できることが示されている。
特に、音声情報を追加することで、ロボットはゴール位置をより確実に曖昧にすることができる。
AVLMapsはマルチモーダルプロンプトからゼロショットマルチモーダルゴールナビゲーションを可能にし、曖昧なシナリオでは50%改善されたリコールを提供する。
これらの機能は、現実世界のモバイルロボットにも拡張され、視覚、音声、空間の概念を参照するランドマークにナビゲートされる。
ビデオとコードは、https://avlmaps.github.io.comで入手できる。
関連論文リスト
- IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。
近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。
本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:52:42Z) - Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation [22.789590144545706]
本稿では,言語を基盤としたロボットナビゲーションのための3次元シーングラフマッピング手法HOV-SGを提案する。
HOV-SGは3つの異なるデータセットで評価され、オブジェクト、部屋、フロアレベルでのオープン語彙のセマンティック精度において、以前のベースラインを超える。
HOV-SGの有効性と一般化性を証明するため,実世界のマルチストレージ環境における言語条件ロボットナビゲーションの成功例を示した。
論文 参考訳(メタデータ) (2024-03-26T16:36:43Z) - VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [36.31724466541213]
ゼロショットナビゲーションアプローチであるビジョンランゲージフロンティアマップ(VLFM)を導入する。
VLFMは人間の推論にインスパイアされ、新しい環境における見えないセマンティックなオブジェクトにナビゲートするように設計されている。
我々は,ギブソン,ハビタット・マテルポート3D (HM3D) およびマターポート3D (MP3D) のシミュレータを用いて,写真実写環境における VLFM の評価を行った。
論文 参考訳(メタデータ) (2023-12-06T04:02:28Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Visual Language Maps for Robot Navigation [30.33041779258644]
ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータに基づいて事前訓練された市販の視覚言語モデルを用いて行うことができる。
実世界の3次元再構成により,事前学習した視覚言語特徴を直接融合する空間地図表現 VLMaps を提案する。
論文 参考訳(メタデータ) (2022-10-11T18:13:20Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。