論文の概要: BabyWalk: Going Farther in Vision-and-Language Navigation by Taking Baby
Steps
- arxiv url: http://arxiv.org/abs/2005.04625v2
- Date: Sun, 14 Jun 2020 22:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 01:21:04.309416
- Title: BabyWalk: Going Farther in Vision-and-Language Navigation by Taking Baby
Steps
- Title(参考訳): babywalk: 赤ちゃんの歩みによる視覚・言語ナビゲーションの進歩
- Authors: Wang Zhu, Hexiang Hu, Jiacheng Chen, Zhiwei Deng, Vihan Jain, Eugene
Ie, Fei Sha
- Abstract要約: 本研究では,短いコーパスからなるコーパスから学習する際に,エージェントが長い経路をナビゲートする方法について検討する。
我々は、長い命令を短い命令に分解することでナビゲートを学習する新しいVLNエージェントであるBabyWalkを提案する。
BabyWalkは、いくつかのメトリクス、特に長い命令をより良く追跡できる最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 35.26789280774404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to follow instructions is of fundamental importance to autonomous
agents for vision-and-language navigation (VLN). In this paper, we study how an
agent can navigate long paths when learning from a corpus that consists of
shorter ones. We show that existing state-of-the-art agents do not generalize
well. To this end, we propose BabyWalk, a new VLN agent that is learned to
navigate by decomposing long instructions into shorter ones (BabySteps) and
completing them sequentially. A special design memory buffer is used by the
agent to turn its past experiences into contexts for future steps. The learning
process is composed of two phases. In the first phase, the agent uses imitation
learning from demonstration to accomplish BabySteps. In the second phase, the
agent uses curriculum-based reinforcement learning to maximize rewards on
navigation tasks with increasingly longer instructions. We create two new
benchmark datasets (of long navigation tasks) and use them in conjunction with
existing ones to examine BabyWalk's generalization ability. Empirical results
show that BabyWalk achieves state-of-the-art results on several metrics, in
particular, is able to follow long instructions better. The codes and the
datasets are released on our project page https://github.com/Sha-Lab/babywalk.
- Abstract(参考訳): 指示に従うことの学習は、視覚・言語ナビゲーション(VLN)のための自律エージェントにとって基本的な重要性である。
本稿では,エージェントが短いパスからなるコーパスから学習する際に,長いパスをナビゲートする方法について検討する。
既存の最先端エージェントが十分に一般化していないことを示す。
そこで本研究では,長い命令を短い命令(babysteps)に分解し,順次処理することでナビゲートを行うことができる新しいvlnエージェントであるbabywalkを提案する。
特別設計メモリバッファはエージェントによって、過去の経験を将来のステップのコンテキストに変換するために使用される。
学習プロセスは2つのフェーズで構成される。
第1フェーズでは、エージェントはデモから模倣学習を使用してBabyStepsを達成します。
第2フェーズでは、エージェントはカリキュラムベースの強化学習を使用して、より長い命令でナビゲーションタスクの報酬を最大化する。
2つの新しいベンチマークデータセット(長いナビゲーションタスク)を作成し、既存のデータセットと組み合わせて、BabyWalkの一般化能力を調べます。
実証的な結果から、BabyWalkはいくつかのメトリクス、特に長い指示をより良く追従できることが示されている。
コードとデータセットはプロジェクトのページ https://github.com/Sha-Lab/babywalk.com で公開されています。
関連論文リスト
- Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。