論文の概要: Rapid Task-Solving in Novel Environments
- arxiv url: http://arxiv.org/abs/2006.03662v3
- Date: Mon, 19 Apr 2021 18:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:25:29.522497
- Title: Rapid Task-Solving in Novel Environments
- Title(参考訳): 新しい環境における迅速なタスクソルビング
- Authors: Sam Ritter, Ryan Faulkner, Laurent Sartran, Adam Santoro, Matt
Botvinick, David Raposo
- Abstract要約: 最先端の深部RLエージェントは、新しい環境での迅速なタスク解決に失敗する。
エピソード計画ネットワーク(EPN)を開発し、EPNを持つディープRLエージェントがRTSで優れていることを示す。
EPNはバリューライクな計画アルゴリズムの実行を学び、トレーニング経験以上の状況に一般化する。
- 参考スコア(独自算出の注目度): 11.535120259684776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the challenge of rapid task-solving in novel environments (RTS),
wherein an agent must solve a series of tasks as rapidly as possible in an
unfamiliar environment. An effective RTS agent must balance between exploring
the unfamiliar environment and solving its current task, all while building a
model of the new environment over which it can plan when faced with later
tasks. While modern deep RL agents exhibit some of these abilities in
isolation, none are suitable for the full RTS challenge. To enable progress
toward RTS, we introduce two challenge domains: (1) a minimal RTS challenge
called the Memory&Planning Game and (2) One-Shot StreetLearn Navigation, which
introduces scale and complexity from real-world data. We demonstrate that
state-of-the-art deep RL agents fail at RTS in both domains, and that this
failure is due to an inability to plan over gathered knowledge. We develop
Episodic Planning Networks (EPNs) and show that deep-RL agents with EPNs excel
at RTS, outperforming the nearest baseline by factors of 2-3 and learning to
navigate held-out StreetLearn maps within a single episode. We show that EPNs
learn to execute a value iteration-like planning algorithm and that they
generalize to situations beyond their training experience. algorithm and that
they generalize to situations beyond their training experience.
- Abstract(参考訳): 我々は,エージェントが不慣れな環境でできるだけ早く一連のタスクを解決しなければならない新規環境(rts)における迅速なタスク解決の課題を提案する。
効率的なRTSエージェントは、不慣れな環境の探索と現在のタスクの解決のバランスをとる必要がある。
現代の深部RLエージェントはこれらの能力のいくつかを単独で示すが、完全なRTSチャレンジには適していない。
rtsの進歩を実現するために,(1)メモリ・プランニングゲームと呼ばれる最小のrtsチャレンジと,(2)実世界のデータからスケールと複雑さを導入するワンショット・ストリートリールンナビゲーションという2つの課題領域を導入する。
我々は、最先端の深部RLエージェントが、両方のドメインのRTSで失敗し、この失敗は、収集された知識を計画できないためであることを示した。
エピソード計画ネットワーク(EPN)を開発し,EPNを持つディープRLエージェントがRTSにおいて優れ,最寄りのベースラインを2~3因子で上回り,StreetLearnマップを1回でナビゲートする方法を学習した。
EPNが反復型計画アルゴリズムの実行を学習し、トレーニング経験以上の状況に一般化することを示します。
アルゴリズムは訓練経験以上の 状況に一般化します
関連論文リスト
- Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文 参考訳(メタデータ) (2023-11-05T19:43:23Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Beyond CAGE: Investigating Generalization of Learned Autonomous Network
Defense Policies [0.8785883427835897]
本研究は,CAGEチャレンジの第2版で実施された強化学習アプローチを評価する。
アンサンブルRL技術は,我々の他のモデルより優れ,競争において第2位である。
目に見えない環境では、我々のアプローチはすべて悪化し、環境の変化のタイプによって様々な劣化が生じます。
論文 参考訳(メタデータ) (2022-11-28T17:01:24Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。
そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。
封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。
このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文 参考訳(メタデータ) (2021-05-24T15:05:58Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。