論文の概要: VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model
- arxiv url: http://arxiv.org/abs/2401.02695v1
- Date: Fri, 5 Jan 2024 08:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:41:18.605868
- Title: VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model
- Title(参考訳): voronav:voronoiベースの大きな言語モデルによるゼロショットオブジェクトナビゲーション
- Authors: Pengying Wu, Yao Mu, Bingxian Wu, Yi Hou, Ji Ma, Shanghang Zhang,
Chang Liu
- Abstract要約: 本稿では,新しい意味探索フレームワークであるVoroNavを紹介する。
トポロジカルな情報とセマンティックな情報を活用することで、VoroNavはパスとイメージのテキストベースの記述を設計する。
本手法は,環境文脈を表現するため,経路と遠近法の記述の相乗効果を示す。
- 参考スコア(独自算出の注目度): 28.79971953667143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of household robotics, the Zero-Shot Object Navigation (ZSON)
task empowers agents to adeptly traverse unfamiliar environments and locate
objects from novel categories without prior explicit training. This paper
introduces VoroNav, a novel semantic exploration framework that proposes the
Reduced Voronoi Graph to extract exploratory paths and planning nodes from a
semantic map constructed in real time. By harnessing topological and semantic
information, VoroNav designs text-based descriptions of paths and images that
are readily interpretable by a large language model (LLM). Our approach
presents a synergy of path and farsight descriptions to represent the
environmental context, enabling the LLM to apply commonsense reasoning to
ascertain the optimal waypoints for navigation. Extensive evaluation on the
HM3D and HSSD datasets validates that VoroNav surpasses existing ZSON
benchmarks in both success rates and exploration efficiency (+2.8% Success and
+3.7% SPL on HM3D, +2.6% Success and +3.8% SPL on HSSD). Additionally
introduced metrics that evaluate obstacle avoidance proficiency and perceptual
efficiency further corroborate the enhancements achieved by our method in ZSON
planning.
- Abstract(参考訳): 家庭用ロボティクスの領域では、ゼロショットオブジェクトナビゲーション(ZSON)タスクは、エージェントが不慣れな環境を巧みに横切り、前もって明示的な訓練をせずに新しいカテゴリーからオブジェクトを見つけることを可能にする。
本稿では,新しい意味探索フレームワークvoronavについて紹介する。voronoiグラフを縮小し,探索経路と計画ノードをリアルタイムで構築した意味マップから抽出する。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデル(LLM)で容易に解釈できるパスとイメージのテキストベースの記述を設計する。
提案手法は,環境コンテキストを表現するための経路記述と遠近法記述の相乗効果を示し,LLMがナビゲーションに最適な経路を求めるための常識推論を適用できるようにする。
HM3DとHSSDデータセットの大規模な評価では、VoroNavは既存のZSONベンチマークを成功率と探索効率の両方で上回っている(HM3Dでは+2.8%、HSSDでは+3.7%、HM3Dでは+2.6%、+3.8%)。
さらに,障害物回避能力と知覚効率を評価する指標を導入し,ZSON計画における我々の手法による改善をさらに裏付けた。
関連論文リスト
- TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [34.85111360243636]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
また,動的マップスケーリング(DMS)機構を設計し,好みのスケールで動的にトップビューマップをズームする。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - IPPON: Common Sense Guided Informative Path Planning for Object Goal Navigation [33.979481250363584]
本稿では,新しい情報経路計画法と3次元オブジェクト確率マッピング手法を提案する。
マッピングモジュールはセマンティックセグメンテーションとベイズフィルタによって関心対象の確率を計算する。
我々のプランナーはゼロショットアプローチに従っているが、2023年のHabitat ObjectNav Challengeにおいて、Path Length(SPL)とSoft SPLが重み付けしたSuccessによって測定された最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-25T17:11:33Z) - SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS)
我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。
不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。
我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文 参考訳(メタデータ) (2022-12-05T18:58:58Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。