論文の概要: Maximum Entropy Reinforcement Learning with Mixture Policies
- arxiv url: http://arxiv.org/abs/2103.10176v1
- Date: Thu, 18 Mar 2021 11:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:11:28.687053
- Title: Maximum Entropy Reinforcement Learning with Mixture Policies
- Title(参考訳): 混合ポリシーを用いた最大エントロピー強化学習
- Authors: Nir Baram, Guy Tennenholtz, Shie Mannor
- Abstract要約: MaxEntアルゴリズムを用いて混合エントロピーのトラクタブル近似を構築する。
我々は、それが限界エントロピーの合計と密接に関連していることを示しています。
我々は, 混合ポリシーケースに対するsoft actor-critic (sac) のアルゴリズム的変種を導出し, 一連の連続制御タスクで評価する。
- 参考スコア(独自算出の注目度): 54.291331971813364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture models are an expressive hypothesis class that can approximate a rich
set of policies. However, using mixture policies in the Maximum Entropy
(MaxEnt) framework is not straightforward. The entropy of a mixture model is
not equal to the sum of its components, nor does it have a closed-form
expression in most cases. Using such policies in MaxEnt algorithms, therefore,
requires constructing a tractable approximation of the mixture entropy. In this
paper, we derive a simple, low-variance mixture-entropy estimator. We show that
it is closely related to the sum of marginal entropies. Equipped with our
entropy estimator, we derive an algorithmic variant of Soft Actor-Critic (SAC)
to the mixture policy case and evaluate it on a series of continuous control
tasks.
- Abstract(参考訳): 混合モデルは、豊かなポリシーの集合を近似できる表現的仮説クラスである。
しかし、MaxEnt(Maximum Entropy)フレームワークでの混合ポリシーの使用は簡単ではない。
混合モデルのエントロピーは、その成分の和に等しくなく、多くの場合、閉形式式も持たない。
したがって、MaxEntアルゴリズムでそのようなポリシーを使用するには、混合エントロピーの抽出可能な近似を構築する必要がある。
本稿では, 単純かつ低分散混合エントロピー推定器を導出する。
限界エントロピーの和と密接に関連していることが示される。
エントロピー推定器を装着し,混合ポリシーケースにソフトアクタ-クリティック(sac)のアルゴリズム変種を導出し,一連の連続制御タスクで評価する。
関連論文リスト
- Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - Optimal Algorithms for Stochastic Complementary Composite Minimization [55.26935605535377]
統計学と機械学習における正規化技術に触発され,補完的な複合化の最小化について検討した。
予測と高い確率で、新しい過剰なリスク境界を提供する。
我々のアルゴリズムはほぼ最適であり、このクラスの問題に対して、新しいより低い複雑性境界によって証明する。
論文 参考訳(メタデータ) (2022-11-03T12:40:24Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - Fitting large mixture models using stochastic component selection [0.0]
本稿では,少数のコンポーネントのみを評価するために,計算とメトロポリス・ハスティングスアルゴリズムの期待値の組み合わせを提案する。
コンポーネント割り当てのマルコフ連鎖は、アルゴリズムのイテレーション間で順次生成される。
提案手法の一般性を重視し,浅い混合モデルと深い混合モデルの両方を訓練する能力を備える。
論文 参考訳(メタデータ) (2021-10-10T12:39:53Z) - Clustering a Mixture of Gaussians with Unknown Covariance [4.821312633849745]
最大極大推定に基づくMax-Cut整数プログラムを導出する。
最適な速度を得るが、2次サンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発する。
我々は Max-Cut プログラムを$k$-means プログラムに一般化する。
論文 参考訳(メタデータ) (2021-10-04T17:59:20Z) - Mean-Square Analysis with An Application to Optimal Dimension Dependence
of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。
我々の理論解析は数値実験によってさらに検証される。
論文 参考訳(メタデータ) (2021-09-08T18:00:05Z) - Spectral clustering under degree heterogeneity: a case for the random
walk Laplacian [83.79286663107845]
本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みが,ノード次数に対して完全に補正されたベクトル表現を生成することを示す。
次数補正ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。
論文 参考訳(メタデータ) (2021-05-03T16:36:27Z) - Rigid and Articulated Point Registration with Expectation Conditional
Maximization [20.096170794358315]
革新的なEMライクアルゴリズム、すなわちECMPR(Conditional Expectation Maximization for Point Registration)アルゴリズムを紹介します。
登録パラメータの推定の観点で、関連する結果について詳細に分析する。
堅固な登録を有形登録まで延長します。
論文 参考訳(メタデータ) (2020-12-09T17:36:11Z) - Self-regularizing Property of Nonparametric Maximum Likelihood Estimator
in Mixture Models [39.27013036481509]
一般ガウス混合に対する非パラメトリック最大度(NPMLE)モデルを導入する。
サンプルサイズに基づくNPMLEは高い確率で$O(log n)$原子(質量点)を持つことを示す。
特に、任意の混合は、$Olog選択を持つ有限の混合から統計的に入っている。
論文 参考訳(メタデータ) (2020-08-19T03:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。