論文の概要: MEPG: A Minimalist Ensemble Policy Gradient Framework for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.10552v1
- Date: Wed, 22 Sep 2021 07:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:56:53.936208
- Title: MEPG: A Minimalist Ensemble Policy Gradient Framework for Deep
Reinforcement Learning
- Title(参考訳): MEPG: 深層強化学習のためのミニマリストアンサンブルポリシーグラディエントフレームワーク
- Authors: Qiang He, Chen Gong, Yuxun Qu, Xiaoyu Chen, Xinwen Hou, Yu Liu
- Abstract要約: 本稿では,資源消費問題を解決するために,新しい単純なアンサンブル・ディープRLアルゴリズムを提案する。
我々は、最小限のアンサンブル一貫性を持つベルマン更新を導入したアンダーラインミニマリスト underlineEnsemble underlinePolicy underlineGradient framework (MEPG)を提案する。
- 参考スコア(独自算出の注目度): 26.349085280990657
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ensemble reinforcement learning (RL) aims to mitigate instability in
Q-learning and to learn a robust policy, which introduces multiple value and
policy functions. In this paper, we consider finding a novel but simple
ensemble Deep RL algorithm to solve the resource consumption issue.
Specifically, we consider integrating multiple models into a single model. To
this end, we propose the \underline{M}inimalist \underline{E}nsemble
\underline{P}olicy \underline{G}radient framework (MEPG), which introduces
minimalist ensemble consistent Bellman update. And we find one value network is
sufficient in our framework. Moreover, we theoretically show that the policy
evaluation phase in the MEPG is mathematically equivalent to a deep Gaussian
Process. To verify the effectiveness of the MEPG framework, we conduct
experiments on the gym simulator, which show that the MEPG framework matches or
outperforms the state-of-the-art ensemble methods and model-free methods
without additional computational resource costs.
- Abstract(参考訳): エンサンブル強化学習(RL)は、Qラーニングにおける不安定性を緩和し、複数の価値とポリシー機能を導入する堅牢なポリシーを学ぶことを目的としている。
本稿では,資源消費問題を解決するために,新しい単純なアンサンブル・ディープRLアルゴリズムを提案する。
具体的には、複数のモデルを単一のモデルに統合することを検討する。
この目的のために,最小限のアンサンブル一貫性を持つベルマン更新を導入した,アンダーライン{M}inimalist \underline{E}nsemble \underline{P}olicy \underline{G}radient framework (MEPG)を提案する。
そして、私たちのフレームワークでは1つの価値ネットワークが十分です。
さらに,MEPGの政策評価フェーズが深いガウス過程と数学的に等価であることを理論的に示す。
我々は,MEPGフレームワークの有効性を検証するため,体育シミュレータ上で実験を行い,MEPGフレームワークが計算資源の余分なコストを伴わずに,最先端のアンサンブル手法とモデルフリー手法とを適合させることを示した。
関連論文リスト
- Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - A multilevel reinforcement learning framework for PDE based control [0.2538209532048867]
強化学習(RL)は制御問題を解くための有望な方法である。
モデルフリーなRLアルゴリズムは、サンプル非効率であり、最適な制御ポリシーを学ぶために、数百万のサンプルを必要としない何千ものサンプルを必要とする。
本稿では,粗いスケールの離散化に対応するサブレベルモデルを活用することで,コストの低減を図るため,マルチレベルRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T23:52:48Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Credit Assignment with Meta-Policy Gradient for Multi-Agent
Reinforcement Learning [29.895142928565228]
MNMPG(Meta Policy Gradient)フレームワークを用いた一般的なメタラーニングベースの混合ネットワークを提案し、繊細な報酬分解のためにグローバルな階層を蒸留します。
starcraft iiのマイクロマネジメントベンチマークによる実験では、単純なユーティリティネットワークだけで現在のmarlアルゴリズムを上回ることができることが示されている。
論文 参考訳(メタデータ) (2021-02-24T12:03:37Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。