Fugu-MT 論文翻訳(概要): SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments

論文の概要: SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments

arxiv url: http://arxiv.org/abs/2309.04077v3
Date: Fri, 22 Sep 2023 20:35:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 01:01:45.503916
Title: SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments
Title（参考訳）: SayNav: 新しい環境での動的計画とナビゲーションのための大規模言語モデル
Authors: Abhinav Rajvanshi, Karan Sikka, Xiao Lin, Bhoram Lee, Han-Pang Chiu and Alvaro Velasquez
Abstract要約: 我々は,Large Language Models (LLMs) からの人間の知識を活用し,複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。 SayNavは、探索された環境の3Dシーングラフを漸進的に構築する、新しい接地メカニズムを使用している。我々は,多目的ナビゲーションタスクのSayNavを評価する。
参考スコア（独自算出の注目度）: 15.025010860725338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic reasoning and dynamic planning capabilities are crucial for an autonomous agent to perform complex navigation tasks in unknown environments. It requires a large amount of common-sense knowledge, that humans possess, to succeed in these tasks. We present SayNav, a new approach that leverages human knowledge from Large Language Models (LLMs) for efficient generalization to complex navigation tasks in unknown large-scale environments. SayNav uses a novel grounding mechanism, that incrementally builds a 3D scene graph of the explored environment as inputs to LLMs, for generating feasible and contextually appropriate high-level plans for navigation. The LLM-generated plan is then executed by a pre-trained low-level planner, that treats each planned step as a short-distance point-goal navigation sub-task. SayNav dynamically generates step-by-step instructions during navigation and continuously refines future steps based on newly perceived information. We evaluate SayNav on a new multi-object navigation task, that requires the agent to utilize a massive amount of human knowledge to efficiently search multiple different objects in an unknown environment. SayNav outperforms an oracle based Point-nav baseline, achieving a success rate of 95.35% (vs 56.06% for the baseline), under the ideal settings on this task, highlighting its ability to generate dynamic plans for successfully locating objects in large-scale new environments. In addition, SayNav also enables efficient generalization of learning to navigate from simulation to real novel environments.
Abstract（参考訳）: 自律エージェントが未知の環境で複雑なナビゲーションタスクを実行するためには、セマンティック推論と動的計画能力が不可欠である。これらのタスクを成功させるためには、人間が持っている多くの常識知識が必要である。我々は,Large Language Models (LLMs) からの人間の知識を活用し,未知の大規模環境における複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。 SayNavは、探索環境の3DシーングラフをLSMへの入力としてインクリメンタルに構築する新しい基盤機構を使用して、ナビゲーションのための実用的でコンテキスト的に適切な高レベルプランを生成する。 LLMの生成したプランは、事前訓練された低レベルプランナーによって実行され、各ステップを短距離のポイントゴールナビゲーションサブタスクとして扱う。 SayNavはナビゲーション中に動的にステップバイステップの指示を生成し、新たに認識された情報に基づいて将来のステップを継続的に洗練する。エージェントが未知の環境で複数の異なるオブジェクトを効率的に探索するために膨大な量の人間知識を利用する必要がある、新しいマルチオブジェクトナビゲーションタスクでsaynavを評価する。 saynavはoracleベースのpoint-navベースラインを上回り、このタスクの理想的な設定の下で95.35%(ベースラインで56.06%)の成功率を達成し、大規模な新しい環境でオブジェクトをうまく配置するための動的プランを生成する能力を強調している。さらにSayNavは、シミュレーションから実際の新しい環境まで、学習の効率的な一般化を可能にする。

関連論文リスト

General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting [9.157222032441531]
Agentic Robotic Navigation Architecture (ARNA)は、LVLMベースのエージェントに知覚、推論、ナビゲーションツールのライブラリを装備する汎用ナビゲーションフレームワークである。実行時に、エージェントは自律的にタスク固有のナビゲーションを定義し、実行し、ロボットモジュールを反復的にクエリし、マルチモーダル入力を推論し、適切なナビゲーションアクションを選択する。 ARNAは最先端のパフォーマンスを達成し、手作りの計画や固定された入力表現、既存の地図に頼ることなく、効果的な探索、ナビゲーション、具体化された質問応答を実証する。
論文参考訳（メタデータ） (2025-06-20T20:06:14Z)
CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文参考訳（メタデータ） (2025-05-08T20:01:35Z)
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。 MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文参考訳（メタデータ） (2024-11-25T14:27:55Z)
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文参考訳（メタデータ） (2024-10-03T17:49:28Z)
Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation [11.510823733292519]
大規模言語モデルから抽出したオブジェクト間関係の共通知識を組み込んだデータセットに基づいて,データ駆動型モジュール型アプローチを提案する。 Habitatシミュレーターの結果、我々のフレームワークは平均10.6%の効率でベースラインを上回り、Path Length(SPL)が重み付けした成功(Success)を実証した。
論文参考訳（メタデータ） (2024-03-21T06:32:36Z)
Right Place, Right Time! Dynamizing Topological Graphs for Embodied Navigation [55.581423861790945]
身体的ナビゲーションのタスクは、探索中にシーンのトポロジカルグラフを構築することを伴うことが多い。我々は、オブジェクト遷移グラフ(OTG)と呼ばれる静的トポロジカルグラフをダイナマイズするために、構造化されたオブジェクト遷移を導入する。 OTGは、人間の習慣にインスパイアされた構造化経路に従って、ポータブルターゲットをシミュレートする。
論文参考訳（メタデータ） (2024-03-14T22:33:22Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。 NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文参考訳（メタデータ） (2023-05-26T14:41:06Z)
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文参考訳（メタデータ） (2023-04-06T13:07:17Z)
Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文参考訳（メタデータ） (2022-10-14T04:23:27Z)
Auxiliary Tasks and Exploration Enable ObjectNav [48.314102158070874]
補助学習タスクと探索報酬を追加することで,汎用学習エージェントを再生成する。われわれのエージェントは24.5%の成功、8.1%のSPL、それぞれ37%と8%の相対的な改善を達成している。
論文参考訳（メタデータ） (2021-04-08T23:03:21Z)
MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation [23.877609358505268]
最近の研究は、地図のようなメモリが長距離ナビゲーションタスクに有用であることを示している。本稿では,実環境において,エピソード特有のオブジェクト列へのナビゲーションを必要とするマルチオンタスクを提案する。様々なエージェントモデルがナビゲーションタスクの複雑度をまたいでどのように振る舞うかを検討する。
論文参考訳（メタデータ） (2020-12-07T18:42:38Z)
ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文参考訳（メタデータ） (2020-11-15T23:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。