論文の概要: VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation
- arxiv url: http://arxiv.org/abs/2312.03275v1
- Date: Wed, 6 Dec 2023 04:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:04:37.541191
- Title: VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation
- Title(参考訳): VLFM:ゼロショットセマンティックナビゲーションのための視覚言語フロンティアマップ
- Authors: Naoki Yokoyama, Sehoon Ha, Dhruv Batra, Jiuguang Wang, Bernadette
Bucher
- Abstract要約: ゼロショットナビゲーションアプローチであるビジョンランゲージフロンティアマップ(VLFM)を導入する。
VLFMは人間の推論にインスパイアされ、新しい環境における見えないセマンティックなオブジェクトにナビゲートするように設計されている。
我々は,ギブソン,ハビタット・マテルポート3D (HM3D) およびマターポート3D (MP3D) のシミュレータを用いて,写真実写環境における VLFM の評価を行った。
- 参考スコア(独自算出の注目度): 36.31724466541213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how humans leverage semantic knowledge to navigate unfamiliar
environments and decide where to explore next is pivotal for developing robots
capable of human-like search behaviors. We introduce a zero-shot navigation
approach, Vision-Language Frontier Maps (VLFM), which is inspired by human
reasoning and designed to navigate towards unseen semantic objects in novel
environments. VLFM builds occupancy maps from depth observations to identify
frontiers, and leverages RGB observations and a pre-trained vision-language
model to generate a language-grounded value map. VLFM then uses this map to
identify the most promising frontier to explore for finding an instance of a
given target object category. We evaluate VLFM in photo-realistic environments
from the Gibson, Habitat-Matterport 3D (HM3D), and Matterport 3D (MP3D)
datasets within the Habitat simulator. Remarkably, VLFM achieves
state-of-the-art results on all three datasets as measured by success weighted
by path length (SPL) for the Object Goal Navigation task. Furthermore, we show
that VLFM's zero-shot nature enables it to be readily deployed on real-world
robots such as the Boston Dynamics Spot mobile manipulation platform. We deploy
VLFM on Spot and demonstrate its capability to efficiently navigate to target
objects within an office building in the real world, without any prior
knowledge of the environment. The accomplishments of VLFM underscore the
promising potential of vision-language models in advancing the field of
semantic navigation. Videos of real-world deployment can be viewed at
naoki.io/vlfm.
- Abstract(参考訳): 人間のような探索行動が可能なロボットを開発する上で,人間はセマンティックな知識を活用して,未知の環境をナビゲートし,次に探索する場所を決定することが重要である。
ゼロショットナビゲーションアプローチであるVLFM(Vision-Language Frontier Maps)を導入し、人間の推論にインスパイアされ、新しい環境における見えないセマンティックオブジェクトへのナビゲートを意図した。
VLFMは、深度観測から占有マップを構築してフロンティアを特定し、RGB観測と事前学習された視覚言語モデルを活用して、言語基底値マップを生成する。
vlfmはこのマップを使って最も有望なフロンティアを特定し、与えられた対象オブジェクトカテゴリのインスタンスを見つけるために探索する。
我々は,ギブソン,ハビタット・マテルポート3D (HM3D) およびマターポート3D (MP3D) のシミュレータを用いて,写真実写環境における VLFM の評価を行った。
注目すべきことに、VLFMは、Object Goal Navigationタスクのパス長(SPL)で重み付けされた成功によって測定された3つのデータセットすべてに対して、最先端の結果を達成する。
さらに,vlfmのゼロショット特性により,boston dynamics spotモバイル操作プラットフォームのような実世界のロボットに容易にデプロイできることを示した。
我々は、VLFMをSpot上にデプロイし、環境に関する事前の知識なしに、実世界のオフィスビル内のターゲットオブジェクトに効率的にナビゲートできることを実証する。
VLFMの成果は、セマンティックナビゲーションの分野を前進させるビジョン言語モデルの可能性を強調している。
実世界の展開のビデオはnaoki.io/vlfmで見ることができる。
関連論文リスト
- TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [34.85111360243636]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
また,動的マップスケーリング(DMS)機構を設計し,好みのスケールで動的にトップビューマップをズームする。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - HM3D-OVON: A Dataset and Benchmark for Open-Vocabulary Object Goal Navigation [39.54854283833085]
Habitat-Matterport 3D Open Vocabulary Object Goal Navigation データセット(HM3D-OVON)を提案する。
HM3D-OVONは、379の異なるカテゴリにわたる15k以上の注釈付きオブジェクトのインスタンスを組み込んでいる。
我々は,HM3D-OVONを用いて,オープン語彙のObjectNavエージェントを訓練し,高い性能を実現し,最先端のObjectNavアプローチよりもローカライゼーションやアクティベーションノイズに頑健であることを確認した。
論文 参考訳(メタデータ) (2024-09-22T02:12:29Z) - Navigation with VLM framework: Go to Any Language [2.9869976373921916]
視覚的大言語モデル(VLM)は、言語と視覚データの両方を推論する際、顕著な能力を示した。
このフレームワークは、機器レベルのVLMを利用して、エージェントがオープンシーンで特定の言語目標や非特定の言語目標に向かって移動できるようにする。
本研究では,Habitat シミュレータ内の Matterport 3D (MP3D) , Habitat Matterport 3D (HM3D) および Gibson データセットから,詳細な環境下での NavVLM の評価を行った。
論文 参考訳(メタデータ) (2024-09-18T02:29:00Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS)
我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Audio Visual Language Maps for Robot Navigation [30.33041779258644]
音声, 視覚, 言語情報からのクロスモーダル情報を格納するための3次元空間地図表現を統一したAVLMap(Audio-Visual-Language Map)を提案する。
AVLMapsは、インターネット規模で事前訓練されたマルチモーダル基礎モデルのオープン語彙機能を統合する。
ナビゲーションの文脈において、AVLMapsは、例えば、テキスト記述、画像、ランドマークの音声スニペットなどのマルチモーダルクエリに基づいて、ロボットシステムが地図内の目標をインデックスできることを示す。
論文 参考訳(メタデータ) (2023-03-13T23:17:51Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。