論文の概要: SayNav: Grounding Large Language Models for Dynamic Planning to
Navigation in New Environments
- arxiv url: http://arxiv.org/abs/2309.04077v3
- Date: Fri, 22 Sep 2023 20:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:01:45.503916
- Title: SayNav: Grounding Large Language Models for Dynamic Planning to
Navigation in New Environments
- Title(参考訳): SayNav: 新しい環境での動的計画とナビゲーションのための大規模言語モデル
- Authors: Abhinav Rajvanshi, Karan Sikka, Xiao Lin, Bhoram Lee, Han-Pang Chiu
and Alvaro Velasquez
- Abstract要約: 我々は,Large Language Models (LLMs) からの人間の知識を活用し,複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。
SayNavは、探索された環境の3Dシーングラフを漸進的に構築する、新しい接地メカニズムを使用している。
我々は,多目的ナビゲーションタスクのSayNavを評価する。
- 参考スコア(独自算出の注目度): 15.025010860725338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic reasoning and dynamic planning capabilities are crucial for an
autonomous agent to perform complex navigation tasks in unknown environments.
It requires a large amount of common-sense knowledge, that humans possess, to
succeed in these tasks. We present SayNav, a new approach that leverages human
knowledge from Large Language Models (LLMs) for efficient generalization to
complex navigation tasks in unknown large-scale environments. SayNav uses a
novel grounding mechanism, that incrementally builds a 3D scene graph of the
explored environment as inputs to LLMs, for generating feasible and
contextually appropriate high-level plans for navigation. The LLM-generated
plan is then executed by a pre-trained low-level planner, that treats each
planned step as a short-distance point-goal navigation sub-task. SayNav
dynamically generates step-by-step instructions during navigation and
continuously refines future steps based on newly perceived information. We
evaluate SayNav on a new multi-object navigation task, that requires the agent
to utilize a massive amount of human knowledge to efficiently search multiple
different objects in an unknown environment. SayNav outperforms an oracle based
Point-nav baseline, achieving a success rate of 95.35% (vs 56.06% for the
baseline), under the ideal settings on this task, highlighting its ability to
generate dynamic plans for successfully locating objects in large-scale new
environments. In addition, SayNav also enables efficient generalization of
learning to navigate from simulation to real novel environments.
- Abstract(参考訳): 自律エージェントが未知の環境で複雑なナビゲーションタスクを実行するためには、セマンティック推論と動的計画能力が不可欠である。
これらのタスクを成功させるためには、人間が持っている多くの常識知識が必要である。
我々は,Large Language Models (LLMs) からの人間の知識を活用し,未知の大規模環境における複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。
SayNavは、探索環境の3DシーングラフをLSMへの入力としてインクリメンタルに構築する新しい基盤機構を使用して、ナビゲーションのための実用的でコンテキスト的に適切な高レベルプランを生成する。
LLMの生成したプランは、事前訓練された低レベルプランナーによって実行され、各ステップを短距離のポイントゴールナビゲーションサブタスクとして扱う。
SayNavはナビゲーション中に動的にステップバイステップの指示を生成し、新たに認識された情報に基づいて将来のステップを継続的に洗練する。
エージェントが未知の環境で複数の異なるオブジェクトを効率的に探索するために膨大な量の人間知識を利用する必要がある、新しいマルチオブジェクトナビゲーションタスクでsaynavを評価する。
saynavはoracleベースのpoint-navベースラインを上回り、このタスクの理想的な設定の下で95.35%(ベースラインで56.06%)の成功率を達成し、大規模な新しい環境でオブジェクトをうまく配置するための動的プランを生成する能力を強調している。
さらにSayNavは、シミュレーションから実際の新しい環境まで、学習の効率的な一般化を可能にする。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation [11.510823733292519]
大規模言語モデルから抽出したオブジェクト間関係の共通知識を組み込んだデータセットに基づいて,データ駆動型モジュール型アプローチを提案する。
Habitatシミュレーターの結果、我々のフレームワークは平均10.6%の効率でベースラインを上回り、Path Length(SPL)が重み付けした成功(Success)を実証した。
論文 参考訳(メタデータ) (2024-03-21T06:32:36Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Auxiliary Tasks and Exploration Enable ObjectNav [48.314102158070874]
補助学習タスクと探索報酬を追加することで,汎用学習エージェントを再生成する。
われわれのエージェントは24.5%の成功、8.1%のSPL、それぞれ37%と8%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2021-04-08T23:03:21Z) - MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation [23.877609358505268]
最近の研究は、地図のようなメモリが長距離ナビゲーションタスクに有用であることを示している。
本稿では,実環境において,エピソード特有のオブジェクト列へのナビゲーションを必要とするマルチオンタスクを提案する。
様々なエージェントモデルがナビゲーションタスクの複雑度をまたいでどのように振る舞うかを検討する。
論文 参考訳(メタデータ) (2020-12-07T18:42:38Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。