論文の概要: Adversarial Environment Generation for Learning to Navigate the Web
- arxiv url: http://arxiv.org/abs/2103.01991v1
- Date: Tue, 2 Mar 2021 19:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 15:07:30.519393
- Title: Adversarial Environment Generation for Learning to Navigate the Web
- Title(参考訳): webをナビゲートする学習のためのadversarial environment generation
- Authors: Izzeddin Gur, Natasha Jaques, Kevin Malta, Manoj Tiwari, Honglak Lee,
Aleksandra Faust
- Abstract要約: Webナビゲーションエージェントのトレーニングのボトルネックの1つは、トレーニング環境の学習可能なカリキュラムを提供することです。
AEG(Adversarial Environment Generation)を使用して、強化学習(RL)エージェントを訓練する困難なWeb環境を生成することを提案する。
提案するフレキシブルb-PAIRED技術を用いて訓練したナビゲータエージェントは,競争力のある自動カリキュラム生成ベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 107.99759923626242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to autonomously navigate the web is a difficult sequential decision
making task. The state and action spaces are large and combinatorial in nature,
and websites are dynamic environments consisting of several pages. One of the
bottlenecks of training web navigation agents is providing a learnable
curriculum of training environments that can cover the large variety of
real-world websites. Therefore, we propose using Adversarial Environment
Generation (AEG) to generate challenging web environments in which to train
reinforcement learning (RL) agents. We provide a new benchmarking environment,
gMiniWoB, which enables an RL adversary to use compositional primitives to
learn to generate arbitrarily complex websites. To train the adversary, we
propose a new technique for maximizing regret using the difference in the
scores obtained by a pair of navigator agents. Our results show that our
approach significantly outperforms prior methods for minimax regret AEG. The
regret objective trains the adversary to design a curriculum of environments
that are "just-the-right-challenge" for the navigator agents; our results show
that over time, the adversary learns to generate increasingly complex web
navigation tasks. The navigator agents trained with our technique learn to
complete challenging, high-dimensional web navigation tasks, such as form
filling, booking a flight etc. We show that the navigator agent trained with
our proposed Flexible b-PAIRED technique significantly outperforms competitive
automatic curriculum generation baselines -- including a state-of-the-art RL
web navigation approach -- on a set of challenging unseen test environments,
and achieves more than 80% success rate on some tasks.
- Abstract(参考訳): Webを自律的にナビゲートする学習は、難しいシーケンシャルな意思決定タスクです。
状態空間とアクション空間は自然界において大きく複合的であり、ウェブサイトは複数のページからなる動的環境である。
webナビゲーションエージェントのトレーニングのボトルネックの1つは、様々な現実世界のウェブサイトをカバーするトレーニング環境の学習可能なカリキュラムを提供することである。
そこで本稿では,強化学習(RL)エージェントを訓練する上で困難なWeb環境を生成するために,Adversarial Environment Generation (AEG) を提案する。
我々は、RL敵が合成プリミティブを使用して任意の複雑なWebサイトを生成することができる新しいベンチマーク環境gMiniWoBを提供する。
敵を訓練するために,一対のナビゲータエージェントによって得られたスコアの差を利用して後悔を最大化する新しい手法を提案する。
その結果,我々のアプローチは,ミニマックス後悔AEGの以前の方法を大幅に上回ることがわかった。
残念な目的は、ナビゲーターエージェントのための「ちょうど右の挑戦」である環境のカリキュラムを設計するために敵を訓練します。私たちの結果は、敵がますます複雑なWebナビゲーションタスクを生成することを学ぶことを示しています。
我々の技術で訓練されたナビゲータエージェントは、フォームフィリングやフライトの予約など、困難で高次元のウェブナビゲーションタスクを完成させることを学ぶ。
提案するフレキシブルなb-paired手法で訓練されたナビゲータエージェントは,最先端のrl webナビゲーション手法を含む,競争力の高い自動カリキュラム生成ベースラインを上回っており,いくつかのタスクで80%以上の成功率を達成している。
関連論文リスト
- A Role of Environmental Complexity on Representation Learning in Deep Reinforcement Learning Agents [3.7314353481448337]
我々は、深層強化学習エージェントを訓練するためのシミュレーションナビゲーション環境を開発した。
ショートカットおよびナビゲーションキューへの露出頻度を変調し,異なる能力を有する人工エージェントの開発に繋がった。
これらのエージェントを駆動する人工ニューラルネットワークの符号化表現について検討し、表現学習における複雑なダイナミクスを明らかにした。
論文 参考訳(メタデータ) (2024-07-03T18:27:26Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Human-Aware Robot Navigation via Reinforcement Learning with Hindsight
Experience Replay and Curriculum Learning [28.045441768064215]
強化学習アプローチは、シーケンシャルな意思決定問題を解決する優れた能力を示している。
本研究では,実演データを使わずにRLエージェントを訓練する作業を検討する。
密集層における最適なナビゲーションポリシーを効率的に学習するために,後視体験リプレイ(HER)とカリキュラム学習(CL)技術をRLに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-10-09T13:18:11Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - Embodied Visual Navigation with Automatic Curriculum Learning in Real
Environments [20.017277077448924]
NavACLは、ナビゲーションタスクに適した自動カリキュラム学習の方法である。
NavACLを用いて訓練した深層強化学習剤は、均一サンプリングで訓練した最先端エージェントよりも有意に優れていた。
我々のエージェントは、未知の乱雑な屋内環境から、RGB画像のみを使用して意味的に特定されたターゲットへ移動することができる。
論文 参考訳(メタデータ) (2020-09-11T13:28:26Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。