論文の概要: Obstacle Tower Without Human Demonstrations: How Far a Deep Feed-Forward
Network Goes with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.00567v2
- Date: Mon, 20 Jul 2020 15:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 17:43:07.376272
- Title: Obstacle Tower Without Human Demonstrations: How Far a Deep Feed-Forward
Network Goes with Reinforcement Learning
- Title(参考訳): 人間のデモのない障害物タワー:強化学習による深層フィードフォワードネットワークの走行距離
- Authors: Marco Pleines, Jenia Jitsev, Mike Preuss, and Frank Zimmer
- Abstract要約: オブスタークルタワーチャレンジ(Obstacle Tower Challenge)は、手続き的に生成されたレベルのチェーンをマスターするタスクである。
競争力のある(第7位)アプローチを提示するが,Deep Reinforcement Learningによって完全にゼロから開始する。
- 参考スコア(独自算出の注目度): 1.699937048243873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Obstacle Tower Challenge is the task to master a procedurally generated
chain of levels that subsequently get harder to complete. Whereas the most top
performing entries of last year's competition used human demonstrations or
reward shaping to learn how to cope with the challenge, we present an approach
that performed competitively (placed 7th) but starts completely from scratch by
means of Deep Reinforcement Learning with a relatively simple feed-forward deep
network structure. We especially look at the generalization performance of the
taken approach concerning different seeds and various visual themes that have
become available after the competition, and investigate where the agent fails
and why. Note that our approach does not possess a short-term memory like
employing recurrent hidden states. With this work, we hope to contribute to a
better understanding of what is possible with a relatively simple, flexible
solution that can be applied to learning in environments featuring complex 3D
visual input where the abstract task structure itself is still fairly simple.
- Abstract(参考訳): オブスタークルタワーチャレンジ(Obstacle Tower Challenge)は、手続き的に生成されたレベルのチェーンをマスターするタスクである。
去年のコンペでは、人間のデモや報酬のシェイピングを使って課題の対処法を学んでいるが、本論文では、比較的単純なフィードフォワード深層ネットワーク構造による深層強化学習によって、競争力(第7位)で完全にスクラッチからスタートするアプローチを提案する。
特に,競争後に利用可能になった種や様々な視覚テーマに関する取組アプローチの一般化性能を考察し,エージェントがどこで失敗したのか,その理由について検討する。
我々のアプローチは、繰り返し発生する隠蔽状態を採用するような短期記憶を持っていないことに注意。
この研究により、抽象的なタスク構造自体がかなり単純である複雑な3D視覚入力を含む環境での学習に応用できる比較的単純で柔軟なソリューションで、何ができるかをよりよく理解できるようになることを期待する。
関連論文リスト
- You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - A Novel Automated Curriculum Strategy to Solve Hard Sokoban Planning
Instances [30.32386551923329]
本稿では,1つの難題を解決するためのカリキュラム駆動型学習手法を提案する。
タスクの硬さの滑らかさが最終学習結果にどのように影響するかを示す。
われわれのアプローチは、これまでの最先端のSokobanソルバには及ばないプランを明らかにすることができる。
論文 参考訳(メタデータ) (2021-10-03T00:44:50Z) - Progressive Stage-wise Learning for Unsupervised Feature Representation
Enhancement [83.49553735348577]
教師なし学習のためのプログレッシブ・ステージ・ワイド・ラーニング(PSL)フレームワークを提案する。
実験の結果,PSLは教師なしの指導方法の学習結果を継続的に改善することがわかった。
論文 参考訳(メタデータ) (2021-06-10T07:33:19Z) - Thinking Deeply with Recurrence: Generalizing from Easy to Hard
Sequential Reasoning Problems [51.132938969015825]
我々は、リカレントネットワークは、非リカレントディープモデルの振る舞いを詳細にエミュレートする能力を有することを観察する。
再帰ステップの少ない単純な迷路を解くように訓練された再帰ネットワークは、推論中に追加の繰り返しを実行するだけで、より複雑な問題を解決することができる。
論文 参考訳(メタデータ) (2021-02-22T14:09:20Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Complex Skill Acquisition Through Simple Skill Imitation Learning [0.0]
本稿では,ニューラルネットワークのポリシーをシンプルで学習しやすいスキルで学習するアルゴリズムを提案する。
複雑なタスクが単純なサブタスクの同時(そしておそらくはシーケンシャルな)組み合わせである場合に焦点を当てる。
我々のアルゴリズムは、トレーニング速度と全体的な性能において、最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2020-07-20T17:06:26Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Learning Neural-Symbolic Descriptive Planning Models via Cube-Space
Priors: The Voyage Home (to STRIPS) [13.141761152863868]
我々のニューロシンボリックアーキテクチャは、画像のみから簡潔で効果的な離散状態遷移モデルを生成するために、エンドツーエンドで訓練されていることを示す。
私たちのターゲット表現は、既成の問題解決者が使いこなせる形で既に存在しており、現代の検索機能への扉を開いています。
論文 参考訳(メタデータ) (2020-04-27T15:01:54Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。