論文の概要: Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design
- arxiv url: http://arxiv.org/abs/2310.02782v1
- Date: Wed, 4 Oct 2023 12:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:10:26.271991
- Title: Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design
- Title(参考訳): 逆環境設計による一般強化学習アルゴリズムの発見
- Authors: Matthew Thomas Jackson, Minqi Jiang, Jack Parker-Holder, Risto Vuorio,
Chris Lu, Gregory Farquhar, Shimon Whiteson, Jakob Nicolaus Foerster
- Abstract要約: メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 54.39859618450935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past decade has seen vast progress in deep reinforcement learning (RL) on
the back of algorithms manually designed by human researchers. Recently, it has
been shown that it is possible to meta-learn update rules, with the hope of
discovering algorithms that can perform well on a wide range of RL tasks.
Despite impressive initial results from algorithms such as Learned Policy
Gradient (LPG), there remains a generalization gap when these algorithms are
applied to unseen environments. In this work, we examine how characteristics of
the meta-training distribution impact the generalization performance of these
algorithms. Motivated by this analysis and building on ideas from Unsupervised
Environment Design (UED), we propose a novel approach for automatically
generating curricula to maximize the regret of a meta-learned optimizer, in
addition to a novel approximation of regret, which we name algorithmic regret
(AR). The result is our method, General RL Optimizers Obtained Via Environment
Design (GROOVE). In a series of experiments, we show that GROOVE achieves
superior generalization to LPG, and evaluate AR against baseline metrics from
UED, identifying it as a critical component of environment design in this
setting. We believe this approach is a step towards the discovery of truly
general RL algorithms, capable of solving a wide range of real-world
environments.
- Abstract(参考訳): 過去10年間、人間の研究者が手動で設計したアルゴリズムの裏側で、深層強化学習(RL)が大幅に進歩してきた。
近年,多岐にわたるRLタスクでよく機能するアルゴリズムの発見を期待して,メタ学習型更新ルールが可能であることが示されている。
学習ポリシー勾配(lpg)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが未知の環境に適用された場合、一般化のギャップは残る。
本研究では,これらのアルゴリズムの一般化性能にメタトレーニング分布の特性がどのように影響するかを検討する。
この分析と、Unsupervised Environment Design (UED) のアイデアに基づいて、メタ学習したオプティマイザの後悔を最大化するために、アルゴリズム的後悔(AR)と呼ばれる新しい後悔の近似に加えて、キュリキュラの自動生成手法を提案する。
その結果,一般RLオプティマイザは環境設計 (GROOVE) に適合した。
一連の実験において,GROOVE は LPG に優れた一般化を実現し,UED の基準値に対する AR の評価を行い,環境設計における重要な要素として認識した。
このアプローチは、真に一般的なRLアルゴリズムの発見への一歩であり、幅広い現実世界環境を解決できると考えている。
関連論文リスト
- Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Discovered Policy Optimisation [17.458523575470384]
メタラーニングによってミラーラーニング空間を探索する。
即時結果を学習政策最適化(LPO)と呼ぶ。
LPOを解析することにより、新しい閉形式RLアルゴリズムであるDiscovered Policy optimization (DPO)の定式化に使用するポリシー最適化に関する独自の洞察を得る。
論文 参考訳(メタデータ) (2022-10-11T17:32:11Z) - Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms [15.338931971492288]
我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。
実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。
結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
論文 参考訳(メタデータ) (2021-03-31T17:55:20Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - A Brief Look at Generalization in Visual Meta-Reinforcement Learning [56.50123642237106]
メタ強化学習アルゴリズムの一般化性能を評価する。
これらのアルゴリズムは、困難なタスクで評価された場合、強いオーバーフィッティングを示すことができる。
論文 参考訳(メタデータ) (2020-06-12T15:17:17Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。