Fugu-MT 論文翻訳(概要): VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

論文の概要: VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

arxiv url: http://arxiv.org/abs/2401.02695v1
Date: Fri, 5 Jan 2024 08:05:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-08 15:41:18.605868
Title: VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model
Title（参考訳）: voronav:voronoiベースの大きな言語モデルによるゼロショットオブジェクトナビゲーション
Authors: Pengying Wu, Yao Mu, Bingxian Wu, Yi Hou, Ji Ma, Shanghang Zhang, Chang Liu
Abstract要約: 本稿では,新しい意味探索フレームワークであるVoroNavを紹介する。トポロジカルな情報とセマンティックな情報を活用することで、VoroNavはパスとイメージのテキストベースの記述を設計する。本手法は,環境文脈を表現するため,経路と遠近法の記述の相乗効果を示す。
参考スコア（独自算出の注目度）: 28.79971953667143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the realm of household robotics, the Zero-Shot Object Navigation (ZSON) task empowers agents to adeptly traverse unfamiliar environments and locate objects from novel categories without prior explicit training. This paper introduces VoroNav, a novel semantic exploration framework that proposes the Reduced Voronoi Graph to extract exploratory paths and planning nodes from a semantic map constructed in real time. By harnessing topological and semantic information, VoroNav designs text-based descriptions of paths and images that are readily interpretable by a large language model (LLM). Our approach presents a synergy of path and farsight descriptions to represent the environmental context, enabling the LLM to apply commonsense reasoning to ascertain the optimal waypoints for navigation. Extensive evaluation on the HM3D and HSSD datasets validates that VoroNav surpasses existing ZSON benchmarks in both success rates and exploration efficiency (+2.8% Success and +3.7% SPL on HM3D, +2.6% Success and +3.8% SPL on HSSD). Additionally introduced metrics that evaluate obstacle avoidance proficiency and perceptual efficiency further corroborate the enhancements achieved by our method in ZSON planning.
Abstract（参考訳）: 家庭用ロボティクスの領域では、ゼロショットオブジェクトナビゲーション(ZSON)タスクは、エージェントが不慣れな環境を巧みに横切り、前もって明示的な訓練をせずに新しいカテゴリーからオブジェクトを見つけることを可能にする。本稿では,新しい意味探索フレームワークvoronavについて紹介する。voronoiグラフを縮小し,探索経路と計画ノードをリアルタイムで構築した意味マップから抽出する。トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデル(LLM)で容易に解釈できるパスとイメージのテキストベースの記述を設計する。提案手法は,環境コンテキストを表現するための経路記述と遠近法記述の相乗効果を示し,LLMがナビゲーションに最適な経路を求めるための常識推論を適用できるようにする。 HM3DとHSSDデータセットの大規模な評価では、VoroNavは既存のZSONベンチマークを成功率と探索効率の両方で上回っている(HM3Dでは+2.8%、HSSDでは+3.7%、HM3Dでは+2.6%、+3.8%)。さらに,障害物回避能力と知覚効率を評価する指標を導入し,ZSON計画における我々の手法による改善をさらに裏付けた。

関連論文リスト

History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文参考訳（メタデータ） (2025-06-19T21:50:16Z)
RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language Models [36.39389224168802]
批判的だが調査の不十分な方向は、これらの課題を克服するための探索の時間的な終了である。 RATE-Nav, Region-Aware Termination-Enhanced Methodを提案する。幾何予測領域分割アルゴリズムと探索率計算のための領域ベース探索推定アルゴリズムを含む。 67.8%の成功率、31.3%のSPLをHM3Dデータセットで達成している。
論文参考訳（メタデータ） (2025-06-03T01:15:00Z)
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [34.85111360243636]
MLLMをベースとしたTopV-Navを提案する。 MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。また,動的マップスケーリング(DMS)機構を設計し,好みのスケールで動的にトップビューマップをズームする。
論文参考訳（メタデータ） (2024-11-25T14:27:55Z)
IPPON: Common Sense Guided Informative Path Planning for Object Goal Navigation [33.979481250363584]
本稿では,新しい情報経路計画法と3次元オブジェクト確率マッピング手法を提案する。マッピングモジュールはセマンティックセグメンテーションとベイズフィルタによって関心対象の確率を計算する。我々のプランナーはゼロショットアプローチに従っているが、2023年のHabitat ObjectNav Challengeにおいて、Path Length(SPL)とSoft SPLが重み付けしたSuccessによって測定された最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-25T17:11:33Z)
SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文参考訳（メタデータ） (2024-10-10T17:57:19Z)
Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文参考訳（メタデータ） (2024-07-08T12:52:46Z)
GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS) 我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文参考訳（メタデータ） (2024-03-18T09:56:48Z)
SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。 SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文参考訳（メタデータ） (2023-09-08T02:24:37Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文参考訳（メタデータ） (2023-03-06T20:19:19Z)
PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文参考訳（メタデータ） (2022-12-05T18:58:58Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。