Fugu-MT 論文翻訳(概要): CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation

論文の概要: CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2306.10322v3
Date: Thu, 14 Mar 2024 14:33:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 03:02:59.024711
Title: CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation
Title（参考訳）: CorNav:Zero-Shot Vision-and-Language Navigationのための自己修正型計画自動エージェント
Authors: Xiwen Liang, Liang Ma, Shanshan Guo, Jianhua Han, Hang Xu, Shikui Ma, Xiaodan Liang,
Abstract要約: CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
参考スコア（独自算出の注目度）: 73.78984332354636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding and following natural language instructions while navigating through complex, real-world environments poses a significant challenge for general-purpose robots. These environments often include obstacles and pedestrians, making it essential for autonomous agents to possess the capability of self-corrected planning to adjust their actions based on feedback from the surroundings. However, the majority of existing vision-and-language navigation (VLN) methods primarily operate in less realistic simulator settings and do not incorporate environmental feedback into their decision-making processes. To address this gap, we introduce a novel zero-shot framework called CorNav, utilizing a large language model for decision-making and comprising two key components: 1) incorporating environmental feedback for refining future plans and adjusting its actions, and 2) multiple domain experts for parsing instructions, scene understanding, and refining predicted actions. In addition to the framework, we develop a 3D simulator that renders realistic scenarios using Unreal Engine 5. To evaluate the effectiveness and generalization of navigation agents in a zero-shot multi-task setting, we create a benchmark called NavBench. Extensive experiments demonstrate that CorNav consistently outperforms all baselines by a significant margin across all tasks. On average, CorNav achieves a success rate of 28.1\%, surpassing the best baseline's performance of 20.5\%.
Abstract（参考訳）: 複雑な現実世界の環境をナビゲートしながら自然言語の指示を理解し、追跡することは、汎用ロボットにとって重要な課題である。これらの環境は、しばしば障害物や歩行者を含むため、自律的なエージェントが周囲からのフィードバックに基づいて行動を調整するための自己修正計画能力を持つことが不可欠である。しかしながら、既存のヴィジュアル・アンド・ランゲージナビゲーション(VLN)手法の大部分は、現実的でないシミュレータ環境で運用されており、環境フィードバックを意思決定プロセスに組み込んでいない。このギャップに対処するため、私たちはCorNavという新しいゼロショットフレームワークを導入しました。 1【今後の計画の整備・調整のための環境フィードバックの活用】 2) 複数のドメインエキスパートによる説明のパース、シーン理解、予測されたアクションの精査。このフレームワークに加えて、Unreal Engine 5を使って現実的なシナリオをレンダリングする3Dシミュレータを開発した。ゼロショットマルチタスク設定におけるナビゲーションエージェントの有効性と一般化を評価するため,NavBenchというベンチマークを作成する。大規模な実験では、CorNavはすべてのタスクにおいて、すべてのベースラインをはるかに上回っている。 CorNav の平均成功率は 28.1 % であり、最高のベースラインのパフォーマンスは 20.5 % を超えている。

関連論文リスト

Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T10:30:40Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
Vision and Language Navigation in the Real World via Online Visual Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。実世界のVLN課題に対処する新しい枠組みを提案する。未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文参考訳（メタデータ） (2023-10-16T20:44:09Z)
Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文参考訳（メタデータ） (2023-05-30T14:40:38Z)
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文参考訳（メタデータ） (2023-04-06T13:07:17Z)
Towards self-attention based visual navigation in the real world [0.0]
視覚誘導ナビゲーションでは、タスク指向の意思決定を知らせるために複雑な視覚情報を処理する必要がある。シミュレーションで訓練された深層強化学習エージェントは、現実世界に配備された時に満足のいく結果を示すことが多い。これは、4000以下のパラメータを使って3Dアクション空間をナビゲートする訓練に成功した、自己注意型エージェントの最初のデモンストレーションである。
論文参考訳（メタデータ） (2022-09-15T04:51:42Z)
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (2022-03-08T11:01:24Z)
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-02-23T19:06:53Z)
Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文参考訳（メタデータ） (2021-04-28T22:46:41Z)
Learning Synthetic to Real Transfer for Localization and Navigational Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文参考訳（メタデータ） (2020-11-20T08:37:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。