論文の概要: Waypoint Models for Instruction-guided Navigation in Continuous
Environments
- arxiv url: http://arxiv.org/abs/2110.02207v1
- Date: Tue, 5 Oct 2021 17:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:21:12.001523
- Title: Waypoint Models for Instruction-guided Navigation in Continuous
Environments
- Title(参考訳): 連続環境における指導誘導ナビゲーションのためのウェイポイントモデル
- Authors: Jacob Krantz, Aaron Gokaslan, Dhruv Batra, Stefan Lee, Oleksandr
Maksymets
- Abstract要約: 本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
- 参考スコア(独自算出の注目度): 68.2912740006109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Little inquiry has explicitly addressed the role of action spaces in
language-guided visual navigation -- either in terms of its effect on
navigation success or the efficiency with which a robotic agent could execute
the resulting trajectory. Building on the recently released VLN-CE setting for
instruction following in continuous environments, we develop a class of
language-conditioned waypoint prediction networks to examine this question. We
vary the expressivity of these models to explore a spectrum between low-level
actions and continuous waypoint prediction. We measure task performance and
estimated execution time on a profiled LoCoBot robot. We find more expressive
models result in simpler, faster to execute trajectories, but lower-level
actions can achieve better navigation metrics by approximating shortest paths
better. Further, our models outperform prior work in VLN-CE and set a new
state-of-the-art on the public leaderboard -- increasing success rate by 4%
with our best model on this challenging task.
- Abstract(参考訳): 言語誘導視覚ナビゲーションにおける行動空間の役割については、ナビゲーションの成功に対する効果や、ロボットエージェントが結果の軌道を実行できる効率の観点から、ほとんど調査されていない。
連続環境における命令追従のためのvln-ce設定に基づいて,言語条件付きウェイポイント予測ネットワークを開発した。
低レベルなアクションと連続的なウェイポイント予測のスペクトルを調べるために、これらのモデルの表現性は異なります。
プロファイラ型ロボットlocobotのタスク性能と推定実行時間を測定した。
より表現力のあるモデルは、よりシンプルで、より高速に軌道を実行できますが、より低いレベルのアクションは、最短経路を近似することで、より良いナビゲーションメトリクスを達成できます。
さらに、当社のモデルは、VLN-CEにおける以前の作業よりも優れており、公開リーダボードに新たな最先端の技術を新たに設定しています。
関連論文リスト
- PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Narrowing the Gap between Vision and Action in Navigation [28.753809306008996]
本稿では,高レベル動作予測を併用した低レベル動作デコーダを提案する。
我々のエージェントは、ハイレベルアクションとローレベルアクションの両方の強力なベースラインと比較して、ナビゲーション性能の指標を改善することができる。
論文 参考訳(メタデータ) (2024-08-19T20:09:56Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes [25.944819618283613]
Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
論文 参考訳(メタデータ) (2023-08-07T01:43:25Z) - ENTL: Embodied Navigation Trajectory Learner [37.43079415330256]
エンボディナビゲーションのための長いシーケンス表現を抽出する手法を提案する。
我々は,現在の行動に則った将来の状態のベクトル量子化予測を用いてモデルを訓練する。
提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることである。
論文 参考訳(メタデータ) (2023-04-05T17:58:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Bridging the Gap Between Learning in Discrete and Continuous
Environments for Vision-and-Language Navigation [41.334731014665316]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における既存の作業のほとんどは、離散的または連続的な環境に焦点を当てている。
ナビゲーション中に候補となるウェイポイントの集合を生成するための予測器を提案する。
予測された経路点を持つ連続環境を航行するエージェントは,低レベル動作を使用するエージェントよりも有意に優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-05T14:56:14Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Success Weighted by Completion Time: A Dynamics-Aware Evaluation
Criteria for Embodied Navigation [42.978177196888225]
我々は,移動ロボットのナビゲーション性能を評価するための新しい指標であるCompletion Time (SCT) により,Successを重み付けした。
RRT*-ユニサイクル(RRT*-Unicycle)も提案する。
論文 参考訳(メタデータ) (2021-03-14T20:13:06Z) - Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous
Environments [48.898567402373324]
本研究では,連続した3次元環境下での言語誘導ナビゲーションタスクの開発を行う。
連続的な環境に配置することで、この設定は以前の作業で暗黙的に多くの仮定を持ち上げる。
論文 参考訳(メタデータ) (2020-04-06T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。