論文の概要: Off-policy Maximum Entropy Reinforcement Learning : Soft Actor-Critic
with Advantage Weighted Mixture Policy(SAC-AWMP)
- arxiv url: http://arxiv.org/abs/2002.02829v1
- Date: Fri, 7 Feb 2020 15:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:24:39.961699
- Title: Off-policy Maximum Entropy Reinforcement Learning : Soft Actor-Critic
with Advantage Weighted Mixture Policy(SAC-AWMP)
- Title(参考訳): オフ政治最大エントロピー強化学習 : アドバンテージウェイト混合政策によるソフトアクター批判(SAC-AWMP)
- Authors: Zhimin Hou and Kuangen Zhang and Yi Wan and Dongyu Li and Chenglong Fu
and Haoyong Yu
- Abstract要約: このようにパラメータ化されたポリシーをAWMP(Advantage Weighted Mixture Policy)と呼び、この考え方を適用してソフト・アクター・クリティカル(Soft-actor-critic, SAC)を改善する。
実験の結果,SAC AWMPは4つの連続制御タスクにおいて明らかにSACよりも優れていた。
- 参考スコア(独自算出の注目度): 13.5333616830354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimal policy of a reinforcement learning problem is often discontinuous
and non-smooth. I.e., for two states with similar representations, their
optimal policies can be significantly different. In this case, representing the
entire policy with a function approximator (FA) with shared parameters for all
states maybe not desirable, as the generalization ability of parameters sharing
makes representing discontinuous, non-smooth policies difficult. A common way
to solve this problem, known as Mixture-of-Experts, is to represent the policy
as the weighted sum of multiple components, where different components perform
well on different parts of the state space. Following this idea and inspired by
a recent work called advantage-weighted information maximization, we propose to
learn for each state weights of these components, so that they entail the
information of the state itself and also the preferred action learned so far
for the state. The action preference is characterized via the advantage
function. In this case, the weight of each component would only be large for
certain groups of states whose representations are similar and preferred action
representations are also similar. Therefore each component is easy to be
represented. We call a policy parameterized in this way an Advantage Weighted
Mixture Policy (AWMP) and apply this idea to improve soft-actor-critic (SAC),
one of the most competitive continuous control algorithm. Experimental results
demonstrate that SAC with AWMP clearly outperforms SAC in four commonly used
continuous control tasks and achieve stable performance across different random
seeds.
- Abstract(参考訳): 強化学習問題の最適方針は、しばしば不連続かつ非滑らかである。
すなわち、類似した表現を持つ2つの状態の場合、それらの最適ポリシーは著しく異なる。
この場合、パラメータ共有の一般化能力は、不連続で非滑らかなポリシーを表現するのが難しくなるため、すべての状態に対して共有パラメータを持つ関数近似器(FA)でポリシー全体を表現することは望ましくないかもしれない。
この問題を解決する一般的な方法は、Mixture-of-Expertsと呼ばれ、状態空間の異なる部分で異なるコンポーネントがよく機能する複数のコンポーネントの重み付け和としてポリシーを表現することである。
この考え方に従い,近年のアドバンテージ重み付け情報最大化( advantage-weighted information maximization)という研究から着想を得た我々は,これらの構成要素のそれぞれの状態重みについて学習することを提案する。
アクションの好みはアドバンテージ関数によって特徴づけられる。
この場合、各成分の重みは、表現が類似しており、望ましい作用表現が類似している状態の特定のグループに対してのみ大きい。
したがって、各コンポーネントは簡単に表現できる。
このような方法でパラメータ化されたポリシーをAdvantage Weighted Mixture Policy (AWMP)と呼び、最も競争力のある連続制御アルゴリズムの一つであるSoft-actor-critic (SAC)を改善するためにこの考え方を適用します。
実験の結果, AWMP を用いた SAC は4つの連続制御タスクにおいて明らかに SAC を上回り, 異なるランダムシードに対して安定した性能を発揮することが示された。
関連論文リスト
- Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions [8.90692770076582]
最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。
従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。
我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
論文 参考訳(メタデータ) (2024-06-16T03:43:55Z) - Oracle-Efficient Reinforcement Learning for Max Value Ensembles [7.404901768256101]
大または無限の状態空間における強化学習(RL)は、理論上、実験的に困難である。
この作業では、$textitmax-following Policy$と競合することを目指しています。
我々の主な成果は、構成ポリシーのみにアクセスすると、最大フォローポリシーと競合する効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-27T01:08:23Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Joint action loss for proximal policy optimization [0.0]
PPOは最先端のポリシー勾配アルゴリズムであり、Dota 2やHonor of Kingsのような複雑なコンピュータゲームにうまく適用されている。
関節と別個の確率を組み合わせた多作用混合損失を提案する。
当社のハイブリッドモデルは,OpenAIのPPOベンチマーク結果と比較して,異なる MuJoCo 環境で50%以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-01-26T03:42:29Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Discovering a set of policies for the worst case reward [15.682107694476779]
我々は、SIPs、set-max Policy(SMPs)の最も保守的なインスタンス化に焦点を当てる。
我々の主な貢献は、タスクセットにおける結果のSMPの最悪のパフォーマンスを最大化するためにポリシーセットを構築するポリシー反復アルゴリズムである。
結果,SMPの最悪の性能は各イテレーションで厳格に向上し,性能改善につながるポリシーが存在しない場合にのみアルゴリズムが停止することを示す。
論文 参考訳(メタデータ) (2021-02-08T16:27:09Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。