論文の概要: VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model
- arxiv url: http://arxiv.org/abs/2401.02695v2
- Date: Tue, 6 Feb 2024 05:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:13:26.721407
- Title: VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model
- Title(参考訳): voronav:voronoiベースの大きな言語モデルによるゼロショットオブジェクトナビゲーション
- Authors: Pengying Wu, Yao Mu, Bingxian Wu, Yi Hou, Ji Ma, Shanghang Zhang,
Chang Liu
- Abstract要約: VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
- 参考スコア(独自算出の注目度): 28.79971953667143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of household robotics, the Zero-Shot Object Navigation (ZSON)
task empowers agents to adeptly traverse unfamiliar environments and locate
objects from novel categories without prior explicit training. This paper
introduces VoroNav, a novel semantic exploration framework that proposes the
Reduced Voronoi Graph to extract exploratory paths and planning nodes from a
semantic map constructed in real time. By harnessing topological and semantic
information, VoroNav designs text-based descriptions of paths and images that
are readily interpretable by a large language model (LLM). In particular, our
approach presents a synergy of path and farsight descriptions to represent the
environmental context, enabling LLM to apply commonsense reasoning to ascertain
waypoints for navigation. Extensive evaluation on HM3D and HSSD validates
VoroNav surpasses existing benchmarks in both success rate and exploration
efficiency (absolute improvement: +2.8% Success and +3.7% SPL on HM3D, +2.6%
Success and +3.8% SPL on HSSD). Additionally introduced metrics that evaluate
obstacle avoidance proficiency and perceptual efficiency further corroborate
the enhancements achieved by our method in ZSON planning. Project page:
https://voro-nav.github.io
- Abstract(参考訳): 家庭用ロボティクスの領域では、ゼロショットオブジェクトナビゲーション(ZSON)タスクは、エージェントが不慣れな環境を巧みに横切り、前もって明示的な訓練をせずに新しいカテゴリーからオブジェクトを見つけることを可能にする。
本稿では,新しい意味探索フレームワークvoronavについて紹介する。voronoiグラフを縮小し,探索経路と計画ノードをリアルタイムで構築した意味マップから抽出する。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデル(LLM)で容易に解釈できるパスとイメージのテキストベースの記述を設計する。
特に,本手法では,環境コンテキストを表現するため,経路と遠近性記述の相乗効果を示し,ナビゲーションの経路点の確認にコモンセンス推論を適用した。
HM3DとHSSDの大規模な評価では、VoroNavは成功率と探索効率の両方で既存のベンチマークを上回っている(絶対改善:+2.8%、HM3Dは+3.7%、+2.6%、+3.8%、HSSDは+3.8%)。
さらに,障害物回避能力と知覚効率を評価する指標を導入し,ZSON計画における我々の手法による改善をさらに裏付けた。
プロジェクトページ: https://voro-nav.github.io
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - SayNav: Grounding Large Language Models for Dynamic Planning to
Navigation in New Environments [15.025010860725338]
我々は,Large Language Models (LLMs) からの人間の知識を活用し,複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。
SayNavは、探索された環境の3Dシーングラフを漸進的に構築する、新しい接地メカニズムを使用している。
我々は,多目的ナビゲーションタスクのSayNavを評価する。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。
不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。
我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文 参考訳(メタデータ) (2022-12-05T18:58:58Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。