論文の概要: Towards Applicable Reinforcement Learning: Improving the Generalization
and Sample Efficiency with Policy Ensemble
- arxiv url: http://arxiv.org/abs/2205.09284v1
- Date: Thu, 19 May 2022 02:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:08:48.865131
- Title: Towards Applicable Reinforcement Learning: Improving the Generalization
and Sample Efficiency with Policy Ensemble
- Title(参考訳): 適応型強化学習に向けて:ポリシーアンサンブルによる一般化とサンプル効率の向上
- Authors: Zhengyu Yang, Kan Ren, Xufang Luo, Minghuan Liu, Weiqing Liu, Jiang
Bian, Weinan Zhang, Dongsheng Li
- Abstract要約: 金融取引やロジスティックシステムといった現実世界の応用において、強化学習アルゴリズムが成功することは困難である。
本稿では,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization (EPPO)を提案する。
EPPOは、バニラポリシー最適化アルゴリズムやその他のアンサンブル手法と比較して、より効率が高く、現実世界のアプリケーションにとって堅牢である。
- 参考スコア(独自算出の注目度): 43.95417785185457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is challenging for reinforcement learning (RL) algorithms to succeed in
real-world applications like financial trading and logistic system due to the
noisy observation and environment shifting between training and evaluation.
Thus, it requires both high sample efficiency and generalization for resolving
real-world tasks. However, directly applying typical RL algorithms can lead to
poor performance in such scenarios. Considering the great performance of
ensemble methods on both accuracy and generalization in supervised learning
(SL), we design a robust and applicable method named Ensemble Proximal Policy
Optimization (EPPO), which learns ensemble policies in an end-to-end manner.
Notably, EPPO combines each policy and the policy ensemble organically and
optimizes both simultaneously. In addition, EPPO adopts a diversity enhancement
regularization over the policy space which helps to generalize to unseen states
and promotes exploration. We theoretically prove EPPO increases exploration
efficacy, and through comprehensive experimental evaluations on various tasks,
we demonstrate that EPPO achieves higher efficiency and is robust for
real-world applications compared with vanilla policy optimization algorithms
and other ensemble methods. Code and supplemental materials are available at
https://seqml.github.io/eppo.
- Abstract(参考訳): 金融取引やロジスティックシステムといった実世界のアプリケーションにおいて,強化学習(rl)アルゴリズムが成功するには,ノイズの観測や,トレーニングと評価の環境シフトなどによって困難である。
したがって、実世界のタスクを解決するには高いサンプル効率と一般化が必要である。
しかし、一般的なRLアルゴリズムを直接適用すると、そのようなシナリオでは性能が低下する可能性がある。
教師付き学習(SL)におけるアンサンブル手法の精度と一般化の両面での優れた性能を考慮し,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization(EPPO)という,堅牢で適用可能な手法を設計する。
特に、EPPOは、各ポリシーと政策アンサンブルを有機的に組み合わせ、両方を同時に最適化する。
さらに、EPPOは、未確認状態への一般化と探索の促進を支援する政策空間の多様性向上規則化を採用する。
我々はEPPOが探索効率を高めることを理論的に証明し、様々なタスクに関する包括的な実験的評価を通じて、EPPOはより効率が高く、バニラポリシー最適化アルゴリズムや他のアンサンブル手法と比較して実世界のアプリケーションにとって堅牢であることを示す。
コードと補足資料はhttps://seqml.github.io/eppoで入手できる。
関連論文リスト
- Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。