論文の概要: Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2104.09122v1
- Date: Mon, 19 Apr 2021 08:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 00:58:27.193292
- Title: Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning
- Title(参考訳): 効率的な深層強化学習のための確率的混合学習
- Authors: Jie Ren, Yewen Li, Zihan Ding, Wei Pan and Hao Dong
- Abstract要約: 学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
- 参考スコア(独自算出の注目度): 7.020079427649125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has successfully solved various problems
recently, typically with a unimodal policy representation. However, grasping
distinguishable skills for some tasks with non-unique optima can be essential
for further improving its learning efficiency and performance, which may lead
to a multimodal policy represented as a mixture-of-experts (MOE). To our best
knowledge, present DRL algorithms for general utility do not deploy this method
as policy function approximators due to the potential challenge in its
differentiability for policy learning. In this work, we propose a probabilistic
mixture-of-experts (PMOE) implemented with a Gaussian mixture model (GMM) for
multimodal policy, together with a novel gradient estimator for the
indifferentiability problem, which can be applied in generic off-policy and
on-policy DRL algorithms using stochastic policies, e.g., Soft Actor-Critic
(SAC) and Proximal Policy Optimisation (PPO). Experimental results testify the
advantage of our method over unimodal polices and two different MOE methods, as
well as a method of option frameworks, based on the above two types of DRL
algorithms, on six MuJoCo tasks. Different gradient estimations for GMM like
the reparameterisation trick (Gumbel-Softmax) and the score-ratio trick are
also compared with our method. We further empirically demonstrate the
distinguishable primitives learned with PMOE and show the benefits of our
method in terms of exploration.
- Abstract(参考訳): 深部強化学習(DRL)は近年,一元的政策表現を用いて,様々な問題を解決している。
しかし, 学習効率と性能向上のためには, 非特異な最適タスクにおいて, 識別可能なスキルの把握が不可欠であり, マルチモーダル政策(MOE)が成立する可能性がある。
最善の知識として,本手法を政策関数近似器として用いることは,政策学習における差別化可能性の潜在的な課題である。
本研究では,マルチモーダル・ポリシーのためのガウス混合モデル (gmm) を用いて実装した確率的混合・オブ・エキスパート (pmoe) と,非微分可能性問題に対する新しい勾配推定器を提案し,確率的ポリシー,例えばsoft actor-critic (sac) とproximal policy optimization (ppo) を用いて,非微分可能性問題に適用できる。
実験の結果,6つのmujocoタスクに対して,単モード警察と2つのmoe法,および上記の2種類のdrlアルゴリズムに基づくオプションフレームワークの利点を検証した。
また,再パラメータ化トリック (gumbel-softmax) やスコアレイトトリックのようなgmmの勾配推定法も本手法と比較した。
我々はさらに,pmoeで学習した識別可能なプリミティブを実証し,探索の観点で手法の利点を示す。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Generalized Policy Improvement Algorithms with Theoretically Supported
Sample Reuse [10.643269981555859]
本研究は,オンライン手法の政策改善保証とサンプル再利用の効率を両立させる汎用政策改善アルゴリズムのクラスを開発する。
本稿では,DeepMind Control Suiteの各種連続制御タスクの広範な実験分析を通じて,この新しいアルゴリズムの利点を実証する。
論文 参考訳(メタデータ) (2022-06-28T02:56:12Z) - Towards Applicable Reinforcement Learning: Improving the Generalization
and Sample Efficiency with Policy Ensemble [43.95417785185457]
金融取引やロジスティックシステムといった現実世界の応用において、強化学習アルゴリズムが成功することは困難である。
本稿では,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization (EPPO)を提案する。
EPPOは、バニラポリシー最適化アルゴリズムやその他のアンサンブル手法と比較して、より効率が高く、現実世界のアプリケーションにとって堅牢である。
論文 参考訳(メタデータ) (2022-05-19T02:25:32Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。