論文の概要: Environment Generation for Zero-Shot Compositional Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2201.08896v1
- Date: Fri, 21 Jan 2022 21:35:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 14:41:46.728003
- Title: Environment Generation for Zero-Shot Compositional Reinforcement
Learning
- Title(参考訳): ゼロショット構成強化学習のための環境生成
- Authors: Izzeddin Gur, Natasha Jaques, Yingjie Miao, Jongwook Choi, Manoj
Tiwari, Honglak Lee, Aleksandra Faust
- Abstract要約: 環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 105.35258025210862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world problems are compositional - solving them requires completing
interdependent sub-tasks, either in series or in parallel, that can be
represented as a dependency graph. Deep reinforcement learning (RL) agents
often struggle to learn such complex tasks due to the long time horizons and
sparse rewards. To address this problem, we present Compositional Design of
Environments (CoDE), which trains a Generator agent to automatically build a
series of compositional tasks tailored to the RL agent's current skill level.
This automatic curriculum not only enables the agent to learn more complex
tasks than it could have otherwise, but also selects tasks where the agent's
performance is weak, enhancing its robustness and ability to generalize
zero-shot to unseen tasks at test-time. We analyze why current environment
generation techniques are insufficient for the problem of generating
compositional tasks, and propose a new algorithm that addresses these issues.
Our results assess learning and generalization across multiple compositional
tasks, including the real-world problem of learning to navigate and interact
with web pages. We learn to generate environments composed of multiple pages or
rooms, and train RL agents capable of completing wide-range of complex tasks in
those environments. We contribute two new benchmark frameworks for generating
compositional tasks, compositional MiniGrid and gMiniWoB for web
navigation.CoDE yields 4x higher success rate than the strongest baseline, and
demonstrates strong performance of real websites learned on 3500 primitive
tasks.
- Abstract(参考訳): 多くの現実世界の問題は構成的であり、それらを解決するには、依存関係グラフとして表現できる、直列または並列の相互依存のサブタスクを完遂する必要がある。
深層強化学習(RL)エージェントは、長い時間的地平線とまばらな報酬のために、複雑なタスクを学ぶのに苦労することが多い。
この問題に対処するために、我々はジェネレータにRLエージェントの現在のスキルレベルに合わせて一連の構成タスクを自動構築するよう訓練する環境構成設計(CoDE)を提案する。
この自動カリキュラムは、エージェントが今まで以上に複雑なタスクを学習することを可能にするだけでなく、エージェントのパフォーマンスが弱いタスクを選択し、その堅牢性とテスト時にゼロショットから見えないタスクを一般化する能力を高める。
本稿では,現在の環境生成手法が構成課題生成に不十分である理由を分析し,これらの問題に対処する新しいアルゴリズムを提案する。
本研究は,Webページの操作と操作に関する現実的な問題を含む,複数の構成課題における学習と一般化を評価した。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
webナビゲーションのためのコンポジションミニグリッドとgminiwobという2つの新しいベンチマークフレームワークを提供し、最も強力なベースラインよりも4倍の成功率を示し、3500のプリミティブタスクで学んだ実際のwebサイトのパフォーマンスを示す。
関連論文リスト
- TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and
Agent Generation [45.028795422801764]
動的タスク分解・エージェント生成(TDAG)に基づくマルチエージェントフレームワークを提案する。
このフレームワークは複雑なタスクを小さなサブタスクに動的に分解し、それぞれが特定の生成されたサブエージェントに割り当てる。
ItineraryBenchは、さまざまな複雑さのタスク間でのメモリ、計画、ツール使用量のエージェントの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-02-15T18:27:37Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - One Network Fits All? Modular versus Monolithic Task Formulations in
Neural Networks [36.07011014271394]
単一のニューラルネットワークは,複合データセットから複数のタスクを同時に学習できることを示す。
このような組み合わせタスクの学習の複雑さは、タスクコードの複雑さとともにどのように成長するかを研究する。
論文 参考訳(メタデータ) (2021-03-29T01:16:42Z) - Adversarial Environment Generation for Learning to Navigate the Web [107.99759923626242]
Webナビゲーションエージェントのトレーニングのボトルネックの1つは、トレーニング環境の学習可能なカリキュラムを提供することです。
AEG(Adversarial Environment Generation)を使用して、強化学習(RL)エージェントを訓練する困難なWeb環境を生成することを提案する。
提案するフレキシブルb-PAIRED技術を用いて訓練したナビゲータエージェントは,競争力のある自動カリキュラム生成ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-03-02T19:19:30Z) - Meta Automatic Curriculum Learning [35.13646854355393]
メタACLの概念を導入し,それをブラックボックスRL学習者の文脈で形式化する。
本稿では,メタACLの初回インスタンス化であるAGAINについて述べる。
論文 参考訳(メタデータ) (2020-11-16T14:56:42Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。