論文の概要: Towards Applicable Reinforcement Learning: Improving the Generalization
and Sample Efficiency with Policy Ensemble
- arxiv url: http://arxiv.org/abs/2205.09284v1
- Date: Thu, 19 May 2022 02:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:08:48.865131
- Title: Towards Applicable Reinforcement Learning: Improving the Generalization
and Sample Efficiency with Policy Ensemble
- Title(参考訳): 適応型強化学習に向けて:ポリシーアンサンブルによる一般化とサンプル効率の向上
- Authors: Zhengyu Yang, Kan Ren, Xufang Luo, Minghuan Liu, Weiqing Liu, Jiang
Bian, Weinan Zhang, Dongsheng Li
- Abstract要約: 金融取引やロジスティックシステムといった現実世界の応用において、強化学習アルゴリズムが成功することは困難である。
本稿では,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization (EPPO)を提案する。
EPPOは、バニラポリシー最適化アルゴリズムやその他のアンサンブル手法と比較して、より効率が高く、現実世界のアプリケーションにとって堅牢である。
- 参考スコア(独自算出の注目度): 43.95417785185457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is challenging for reinforcement learning (RL) algorithms to succeed in
real-world applications like financial trading and logistic system due to the
noisy observation and environment shifting between training and evaluation.
Thus, it requires both high sample efficiency and generalization for resolving
real-world tasks. However, directly applying typical RL algorithms can lead to
poor performance in such scenarios. Considering the great performance of
ensemble methods on both accuracy and generalization in supervised learning
(SL), we design a robust and applicable method named Ensemble Proximal Policy
Optimization (EPPO), which learns ensemble policies in an end-to-end manner.
Notably, EPPO combines each policy and the policy ensemble organically and
optimizes both simultaneously. In addition, EPPO adopts a diversity enhancement
regularization over the policy space which helps to generalize to unseen states
and promotes exploration. We theoretically prove EPPO increases exploration
efficacy, and through comprehensive experimental evaluations on various tasks,
we demonstrate that EPPO achieves higher efficiency and is robust for
real-world applications compared with vanilla policy optimization algorithms
and other ensemble methods. Code and supplemental materials are available at
https://seqml.github.io/eppo.
- Abstract(参考訳): 金融取引やロジスティックシステムといった実世界のアプリケーションにおいて,強化学習(rl)アルゴリズムが成功するには,ノイズの観測や,トレーニングと評価の環境シフトなどによって困難である。
したがって、実世界のタスクを解決するには高いサンプル効率と一般化が必要である。
しかし、一般的なRLアルゴリズムを直接適用すると、そのようなシナリオでは性能が低下する可能性がある。
教師付き学習(SL)におけるアンサンブル手法の精度と一般化の両面での優れた性能を考慮し,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization(EPPO)という,堅牢で適用可能な手法を設計する。
特に、EPPOは、各ポリシーと政策アンサンブルを有機的に組み合わせ、両方を同時に最適化する。
さらに、EPPOは、未確認状態への一般化と探索の促進を支援する政策空間の多様性向上規則化を採用する。
我々はEPPOが探索効率を高めることを理論的に証明し、様々なタスクに関する包括的な実験的評価を通じて、EPPOはより効率が高く、バニラポリシー最適化アルゴリズムや他のアンサンブル手法と比較して実世界のアプリケーションにとって堅牢であることを示す。
コードと補足資料はhttps://seqml.github.io/eppoで入手できる。
関連論文リスト
- Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。