論文の概要: 1st Place Solutions for RxR-Habitat Vision-and-Language Navigation
Competition (CVPR 2022)
- arxiv url: http://arxiv.org/abs/2206.11610v2
- Date: Sun, 26 Jun 2022 14:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 10:32:09.122354
- Title: 1st Place Solutions for RxR-Habitat Vision-and-Language Navigation
Competition (CVPR 2022)
- Title(参考訳): rxr-habitat vision-and-language navigation competition (cvpr 2022) の第1位
- Authors: Dong An, Zun Wang, Yangguang Li, Yi Wang, Yicong Hong, Yan Huang,
Liang Wang, Jing Shao
- Abstract要約: 連続環境における視覚・言語ナビゲーション(VLN-CE)問題に対するモジュール型計画・制御手法を提案する。
提案モデルは,候補経路予測器(CWP),履歴拡張プランナー,試行制御器の3つのモジュールから構成される。
我々のモデルは2022年のRxR-Habitatコンペティションで優勝し、NDTWおよびSRメトリクスの既存手法に比べて48%と90%の相対的な改善があった。
- 参考スコア(独自算出の注目度): 28.5740809300599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents the methods of the winning entry of the RxR-Habitat
Competition in CVPR 2022. The competition addresses the problem of
Vision-and-Language Navigation in Continuous Environments (VLN-CE), which
requires an agent to follow step-by-step natural language instructions to reach
a target. We present a modular plan-and-control approach for the task. Our
model consists of three modules: the candidate waypoints predictor (CWP), the
history enhanced planner and the tryout controller. In each decision loop, CWP
first predicts a set of candidate waypoints based on depth observations from
multiple views. It can reduce the complexity of the action space and facilitate
planning. Then, a history-enhanced planner is adopted to select one of the
candidate waypoints as the subgoal. The planner additionally encodes historical
memory to track the navigation progress, which is especially effective for
long-horizon navigation. Finally, we propose a non-parametric heuristic
controller named tryout to execute low-level actions to reach the planned
subgoal. It is based on the trial-and-error mechanism which can help the agent
to avoid obstacles and escape from getting stuck. All three modules work
hierarchically until the agent stops. We further take several recent advances
of Vision-and-Language Navigation (VLN) to improve the performance such as
pretraining based on large-scale synthetic in-domain dataset, environment-level
data augmentation and snapshot model ensemble. Our model won the RxR-Habitat
Competition 2022, with 48% and 90% relative improvements over existing methods
on NDTW and SR metrics respectively.
- Abstract(参考訳): 本稿では,CVPR2022におけるRxR-Habitatコンペティションの入賞方法を紹介する。
このコンペでは、連続環境(vln-ce)における視覚言語ナビゲーションの問題に対処し、エージェントが目標に到達するにはステップバイステップの自然言語命令に従う必要がある。
我々は,このタスクに対してモジュール型計画制御手法を提案する。
本モデルは,候補経路予測器(CWP),履歴拡張プランナー,試行制御器の3つのモジュールから構成される。
各決定ループにおいて、CWPはまず、複数の視点からの深度観測に基づいて、候補となる経路の集合を予測する。
アクションスペースの複雑さを低減し、計画を容易にする。
そして、ヒストリ強化プランナーを採用し、候補の1つをサブゴールとして選択する。
プランナーは、特に長距離航法に有効である航法進捗を追跡するために、履歴記憶を符号化する。
最後に、提案するサブゴールに到達するための低レベル動作を実行するためのトライアウトと呼ばれる非パラメトリックヒューリスティックコントローラを提案する。
これは、エージェントが障害を回避し、立ち往生を避けるのに役立つ試行錯誤機構に基づいている。
3つのモジュールはすべて、エージェントが停止するまで階層的に動作する。
さらに,vln(vision-and-language navigation)の最近の進歩により,大規模合成インドメインデータセットに基づく事前学習,環境レベルのデータ拡張,スナップショットモデルアンサンブルなどの性能が向上している。
rxr-habitat competition 2022 では,既存のndtw と sr の指標に対してそれぞれ 48% と 90% の相対的改善がみられた。
関連論文リスト
- PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes [25.944819618283613]
Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
論文 参考訳(メタデータ) (2023-08-07T01:43:25Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Target-Driven Structured Transformer Planner for Vision-Language
Navigation [55.81329263674141]
本稿では,TD-STP(Target-Driven Structured Transformer Planner)を提案する。
具体的には,長期目標の明示的な推定を行うため,Imaginary Scene Tokenization機構を考案する。
さらに,調査室のレイアウトを構造的かつグローバルな計画のためのニューラルアテンションアーキテクチャにエレガントに組み込んだ構造化トランスフォーマープランナーを設計する。
論文 参考訳(メタデータ) (2022-07-19T06:46:21Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。