論文の概要: Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2104.09122v1
- Date: Mon, 19 Apr 2021 08:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 00:58:27.193292
- Title: Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning
- Title(参考訳): 効率的な深層強化学習のための確率的混合学習
- Authors: Jie Ren, Yewen Li, Zihan Ding, Wei Pan and Hao Dong
- Abstract要約: 学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
- 参考スコア(独自算出の注目度): 7.020079427649125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has successfully solved various problems
recently, typically with a unimodal policy representation. However, grasping
distinguishable skills for some tasks with non-unique optima can be essential
for further improving its learning efficiency and performance, which may lead
to a multimodal policy represented as a mixture-of-experts (MOE). To our best
knowledge, present DRL algorithms for general utility do not deploy this method
as policy function approximators due to the potential challenge in its
differentiability for policy learning. In this work, we propose a probabilistic
mixture-of-experts (PMOE) implemented with a Gaussian mixture model (GMM) for
multimodal policy, together with a novel gradient estimator for the
indifferentiability problem, which can be applied in generic off-policy and
on-policy DRL algorithms using stochastic policies, e.g., Soft Actor-Critic
(SAC) and Proximal Policy Optimisation (PPO). Experimental results testify the
advantage of our method over unimodal polices and two different MOE methods, as
well as a method of option frameworks, based on the above two types of DRL
algorithms, on six MuJoCo tasks. Different gradient estimations for GMM like
the reparameterisation trick (Gumbel-Softmax) and the score-ratio trick are
also compared with our method. We further empirically demonstrate the
distinguishable primitives learned with PMOE and show the benefits of our
method in terms of exploration.
- Abstract(参考訳): 深部強化学習(DRL)は近年,一元的政策表現を用いて,様々な問題を解決している。
しかし, 学習効率と性能向上のためには, 非特異な最適タスクにおいて, 識別可能なスキルの把握が不可欠であり, マルチモーダル政策(MOE)が成立する可能性がある。
最善の知識として,本手法を政策関数近似器として用いることは,政策学習における差別化可能性の潜在的な課題である。
本研究では,マルチモーダル・ポリシーのためのガウス混合モデル (gmm) を用いて実装した確率的混合・オブ・エキスパート (pmoe) と,非微分可能性問題に対する新しい勾配推定器を提案し,確率的ポリシー,例えばsoft actor-critic (sac) とproximal policy optimization (ppo) を用いて,非微分可能性問題に適用できる。
実験の結果,6つのmujocoタスクに対して,単モード警察と2つのmoe法,および上記の2種類のdrlアルゴリズムに基づくオプションフレームワークの利点を検証した。
また,再パラメータ化トリック (gumbel-softmax) やスコアレイトトリックのようなgmmの勾配推定法も本手法と比較した。
我々はさらに,pmoeで学習した識別可能なプリミティブを実証し,探索の観点で手法の利点を示す。
関連論文リスト
- Equivariant Diffusion Policy [16.52810213171303]
そこで本研究では,ドメイン対称性を利用した新しい拡散政策学習手法を提案し,より優れたサンプル効率とデノナイジング関数の一般化を実現する。
提案手法は,MimicGenにおける12のシミュレーションタスクに対して実証的に評価し,ベースライン拡散政策よりも平均21.9%高い成功率が得られることを示す。
論文 参考訳(メタデータ) (2024-07-01T21:23:26Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Towards Applicable Reinforcement Learning: Improving the Generalization
and Sample Efficiency with Policy Ensemble [43.95417785185457]
金融取引やロジスティックシステムといった現実世界の応用において、強化学習アルゴリズムが成功することは困難である。
本稿では,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization (EPPO)を提案する。
EPPOは、バニラポリシー最適化アルゴリズムやその他のアンサンブル手法と比較して、より効率が高く、現実世界のアプリケーションにとって堅牢である。
論文 参考訳(メタデータ) (2022-05-19T02:25:32Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。