Fugu-MT 論文翻訳(概要): MEPG: A Minimalist Ensemble Policy Gradient Framework for Deep Reinforcement Learning

論文の概要: MEPG: A Minimalist Ensemble Policy Gradient Framework for Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2109.10552v1
Date: Wed, 22 Sep 2021 07:30:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-23 13:56:53.936208
Title: MEPG: A Minimalist Ensemble Policy Gradient Framework for Deep Reinforcement Learning
Title（参考訳）: MEPG: 深層強化学習のためのミニマリストアンサンブルポリシーグラディエントフレームワーク
Authors: Qiang He, Chen Gong, Yuxun Qu, Xiaoyu Chen, Xinwen Hou, Yu Liu
Abstract要約: 本稿では,資源消費問題を解決するために,新しい単純なアンサンブル・ディープRLアルゴリズムを提案する。我々は、最小限のアンサンブル一貫性を持つベルマン更新を導入したアンダーラインミニマリスト underlineEnsemble underlinePolicy underlineGradient framework (MEPG)を提案する。
参考スコア（独自算出の注目度）: 26.349085280990657
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Ensemble reinforcement learning (RL) aims to mitigate instability in Q-learning and to learn a robust policy, which introduces multiple value and policy functions. In this paper, we consider finding a novel but simple ensemble Deep RL algorithm to solve the resource consumption issue. Specifically, we consider integrating multiple models into a single model. To this end, we propose the \underline{M}inimalist \underline{E}nsemble \underline{P}olicy \underline{G}radient framework (MEPG), which introduces minimalist ensemble consistent Bellman update. And we find one value network is sufficient in our framework. Moreover, we theoretically show that the policy evaluation phase in the MEPG is mathematically equivalent to a deep Gaussian Process. To verify the effectiveness of the MEPG framework, we conduct experiments on the gym simulator, which show that the MEPG framework matches or outperforms the state-of-the-art ensemble methods and model-free methods without additional computational resource costs.
Abstract（参考訳）: エンサンブル強化学習(RL)は、Qラーニングにおける不安定性を緩和し、複数の価値とポリシー機能を導入する堅牢なポリシーを学ぶことを目的としている。本稿では,資源消費問題を解決するために,新しい単純なアンサンブル・ディープRLアルゴリズムを提案する。具体的には、複数のモデルを単一のモデルに統合することを検討する。この目的のために,最小限のアンサンブル一貫性を持つベルマン更新を導入した,アンダーライン{M}inimalist \underline{E}nsemble \underline{P}olicy \underline{G}radient framework (MEPG)を提案する。そして、私たちのフレームワークでは1つの価値ネットワークが十分です。さらに,MEPGの政策評価フェーズが深いガウス過程と数学的に等価であることを理論的に示す。我々は,MEPGフレームワークの有効性を検証するため,体育シミュレータ上で実験を行い,MEPGフレームワークが計算資源の余分なコストを伴わずに,最先端のアンサンブル手法とモデルフリー手法とを適合させることを示した。

関連論文リスト

Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文参考訳（メタデータ） (2025-05-21T09:41:53Z)
TD-M(PC)$^2$: Improving Temporal Difference MPC Through Policy Constraint [11.347808936693152]
モデルベースの強化学習アルゴリズムは、モデルベースの計画と学習された価値/政治を組み合わせる。バリューラーニングに標準のSACスタイルのポリシーイテレーションに依存する既存の手法は、しばしばエンハンピスタントな価値過大評価をもたらす。本稿では,ODAクエリを削減し,価値学習を改善する政策正規化項を提案する。
論文参考訳（メタデータ） (2025-02-05T19:08:42Z)
Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning [27.868175900131313]
強化学習 (Reinforcement Learning, RL) は、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。我々はPARAFAC分解を利用してテンソル低ランクポリシーを設計する。
論文参考訳（メタデータ） (2025-01-08T23:22:08Z)
Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data [16.995406965407003]
本稿では,ロバスト$phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーアルゴリズムを提案する。我々はまた、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学ぶために、$phi$-regularized reinforcement learning frameworkを導入した。
論文参考訳（メタデータ） (2024-05-08T23:52:37Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文参考訳（メタデータ） (2024-03-28T14:34:02Z)
Is Inverse Reinforcement Learning Harder than Standard Reinforcement Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文参考訳（メタデータ） (2023-11-29T00:09:01Z)
When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文参考訳（メタデータ） (2023-10-09T19:40:54Z)
A multilevel reinforcement learning framework for PDE based control [0.2538209532048867]
強化学習(RL)は制御問題を解くための有望な方法である。モデルフリーなRLアルゴリズムは、サンプル非効率であり、最適な制御ポリシーを学ぶために、数百万のサンプルを必要としない何千ものサンプルを必要とする。本稿では,粗いスケールの離散化に対応するサブレベルモデルを活用することで,コストの低減を図るため,マルチレベルRLフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-15T23:52:48Z)
Model-based Safe Deep Reinforcement Learning via a Constrained Proximal Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文参考訳（メタデータ） (2022-10-14T06:53:02Z)
MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文参考訳（メタデータ） (2021-02-23T01:30:55Z)
Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文参考訳（メタデータ） (2020-07-13T20:44:15Z)
Robust Reinforcement Learning using Least Squares Policy Iteration with Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文参考訳（メタデータ） (2020-06-20T16:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。