論文の概要: MEPG: A Minimalist Ensemble Policy Gradient Framework for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.10552v1
- Date: Wed, 22 Sep 2021 07:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:56:53.936208
- Title: MEPG: A Minimalist Ensemble Policy Gradient Framework for Deep
Reinforcement Learning
- Title(参考訳): MEPG: 深層強化学習のためのミニマリストアンサンブルポリシーグラディエントフレームワーク
- Authors: Qiang He, Chen Gong, Yuxun Qu, Xiaoyu Chen, Xinwen Hou, Yu Liu
- Abstract要約: 本稿では,資源消費問題を解決するために,新しい単純なアンサンブル・ディープRLアルゴリズムを提案する。
我々は、最小限のアンサンブル一貫性を持つベルマン更新を導入したアンダーラインミニマリスト underlineEnsemble underlinePolicy underlineGradient framework (MEPG)を提案する。
- 参考スコア(独自算出の注目度): 26.349085280990657
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ensemble reinforcement learning (RL) aims to mitigate instability in
Q-learning and to learn a robust policy, which introduces multiple value and
policy functions. In this paper, we consider finding a novel but simple
ensemble Deep RL algorithm to solve the resource consumption issue.
Specifically, we consider integrating multiple models into a single model. To
this end, we propose the \underline{M}inimalist \underline{E}nsemble
\underline{P}olicy \underline{G}radient framework (MEPG), which introduces
minimalist ensemble consistent Bellman update. And we find one value network is
sufficient in our framework. Moreover, we theoretically show that the policy
evaluation phase in the MEPG is mathematically equivalent to a deep Gaussian
Process. To verify the effectiveness of the MEPG framework, we conduct
experiments on the gym simulator, which show that the MEPG framework matches or
outperforms the state-of-the-art ensemble methods and model-free methods
without additional computational resource costs.
- Abstract(参考訳): エンサンブル強化学習(RL)は、Qラーニングにおける不安定性を緩和し、複数の価値とポリシー機能を導入する堅牢なポリシーを学ぶことを目的としている。
本稿では,資源消費問題を解決するために,新しい単純なアンサンブル・ディープRLアルゴリズムを提案する。
具体的には、複数のモデルを単一のモデルに統合することを検討する。
この目的のために,最小限のアンサンブル一貫性を持つベルマン更新を導入した,アンダーライン{M}inimalist \underline{E}nsemble \underline{P}olicy \underline{G}radient framework (MEPG)を提案する。
そして、私たちのフレームワークでは1つの価値ネットワークが十分です。
さらに,MEPGの政策評価フェーズが深いガウス過程と数学的に等価であることを理論的に示す。
我々は,MEPGフレームワークの有効性を検証するため,体育シミュレータ上で実験を行い,MEPGフレームワークが計算資源の余分なコストを伴わずに,最先端のアンサンブル手法とモデルフリー手法とを適合させることを示した。
関連論文リスト
- Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data [16.995406965407003]
本稿では,ロバスト$phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーアルゴリズムを提案する。
我々はまた、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学ぶために、$phi$-regularized reinforcement learning frameworkを導入した。
論文 参考訳(メタデータ) (2024-05-08T23:52:37Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - A multilevel reinforcement learning framework for PDE based control [0.2538209532048867]
強化学習(RL)は制御問題を解くための有望な方法である。
モデルフリーなRLアルゴリズムは、サンプル非効率であり、最適な制御ポリシーを学ぶために、数百万のサンプルを必要としない何千ものサンプルを必要とする。
本稿では,粗いスケールの離散化に対応するサブレベルモデルを活用することで,コストの低減を図るため,マルチレベルRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T23:52:48Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。