論文の概要: Take the Scenic Route: Improving Generalization in Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2003.14269v1
- Date: Tue, 31 Mar 2020 14:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:34:21.866063
- Title: Take the Scenic Route: Improving Generalization in Vision-and-Language
Navigation
- Title(参考訳): ランドスケープルート:視覚・言語ナビゲーションにおける一般化の改善
- Authors: Felix Yu, Zhiwei Deng, Karthik Narasimhan, Olga Russakovsky
- Abstract要約: 一般的なRoom-to-Room (R2R) VLNベンチマークを調査し、重要なことは、合成するデータの量だけでなく、どのように処理するかを知る。
R2Rベンチマークと既存の拡張手法の両方で使用される最短経路サンプリングは、エージェントのアクション空間におけるバイアスを符号化する。
次に、これらの行動先行は、既存の作品の貧弱な一般化に対する一つの説明を提供することを示す。
- 参考スコア(独自算出の注目度): 44.019674347733506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the Vision-and-Language Navigation (VLN) task, an agent with egocentric
vision navigates to a destination given natural language instructions. The act
of manually annotating these instructions is timely and expensive, such that
many existing approaches automatically generate additional samples to improve
agent performance. However, these approaches still have difficulty generalizing
their performance to new environments. In this work, we investigate the popular
Room-to-Room (R2R) VLN benchmark and discover that what is important is not
only the amount of data you synthesize, but also how you do it. We find that
shortest path sampling, which is used by both the R2R benchmark and existing
augmentation methods, encode biases in the action space of the agent which we
dub as action priors. We then show that these action priors offer one
explanation toward the poor generalization of existing works. To mitigate such
priors, we propose a path sampling method based on random walks to augment the
data. By training with this augmentation strategy, our agent is able to
generalize better to unknown environments compared to the baseline,
significantly improving model performance in the process.
- Abstract(参考訳): Vision-and-Language Navigation (VLN)タスクでは、エゴセントリックな視覚を持つエージェントが自然言語の指示を受けた目的地にナビゲートする。
これらの命令を手動でアノテートする行為は、時間と費用がかかるため、エージェントのパフォーマンスを改善するために、既存の多くのアプローチが自動的に追加のサンプルを生成する。
しかし、これらのアプローチは、新しい環境にパフォーマンスを一般化するのは難しい。
本研究では、Room-to-Room (R2R) VLNベンチマークを調査し、重要なことは、合成するデータの量だけでなく、どのように処理するかを知る。
r2rベンチマークと既存の拡張法の両方で使用されている最短経路サンプリングは、我々がアクションプリエントとしてダビングするエージェントのアクションスペースのバイアスを符号化する。
次に、これらの行動優先が既存の作品の貧弱な一般化に対して一つの説明を与えることを示す。
このような先行を緩和するために,ランダムウォークに基づく経路サンプリング手法を提案する。
この拡張戦略によるトレーニングにより,本エージェントはベースラインと比較して未知の環境に適応し,プロセスのモデル性能を著しく向上させることができる。
関連論文リスト
- Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文 参考訳(メタデータ) (2024-10-23T17:59:52Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes [25.944819618283613]
Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
論文 参考訳(メタデータ) (2023-08-07T01:43:25Z) - Masked Path Modeling for Vision-and-Language Navigation [41.7517631477082]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。
以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。
本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:20:20Z) - Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation
Using Scene Object Spectrum Grounding [16.784045122994506]
本稿では,最近の行動の誤りを正すために,利用ポリシーをデプロイする階層的なナビゲーション手法を提案する。
本研究では,エージェントをローカルな目標に向かって移動させるエクスプロイトポリシーが,エージェントを以前訪問した状態に移動させる手法よりも優れていることを示す。
本稿では,検出対象のカテゴリワイド2次元フーリエ変換を行う,シーンオブジェクトスペクトル(SOS)と呼ばれる新しい視覚表現を提案する。
論文 参考訳(メタデータ) (2023-03-07T17:39:53Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。