Fugu-MT 論文翻訳(概要): Maximum Entropy Reinforcement Learning with Mixture Policies

論文の概要: Maximum Entropy Reinforcement Learning with Mixture Policies

arxiv url: http://arxiv.org/abs/2103.10176v1
Date: Thu, 18 Mar 2021 11:23:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-19 14:11:28.687053
Title: Maximum Entropy Reinforcement Learning with Mixture Policies
Title（参考訳）: 混合ポリシーを用いた最大エントロピー強化学習
Authors: Nir Baram, Guy Tennenholtz, Shie Mannor
Abstract要約: MaxEntアルゴリズムを用いて混合エントロピーのトラクタブル近似を構築する。我々は、それが限界エントロピーの合計と密接に関連していることを示しています。我々は, 混合ポリシーケースに対するsoft actor-critic (sac) のアルゴリズム的変種を導出し, 一連の連続制御タスクで評価する。
参考スコア（独自算出の注目度）: 54.291331971813364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture models are an expressive hypothesis class that can approximate a rich set of policies. However, using mixture policies in the Maximum Entropy (MaxEnt) framework is not straightforward. The entropy of a mixture model is not equal to the sum of its components, nor does it have a closed-form expression in most cases. Using such policies in MaxEnt algorithms, therefore, requires constructing a tractable approximation of the mixture entropy. In this paper, we derive a simple, low-variance mixture-entropy estimator. We show that it is closely related to the sum of marginal entropies. Equipped with our entropy estimator, we derive an algorithmic variant of Soft Actor-Critic (SAC) to the mixture policy case and evaluate it on a series of continuous control tasks.
Abstract（参考訳）: 混合モデルは、豊かなポリシーの集合を近似できる表現的仮説クラスである。しかし、MaxEnt(Maximum Entropy)フレームワークでの混合ポリシーの使用は簡単ではない。混合モデルのエントロピーは、その成分の和に等しくなく、多くの場合、閉形式式も持たない。したがって、MaxEntアルゴリズムでそのようなポリシーを使用するには、混合エントロピーの抽出可能な近似を構築する必要がある。本稿では, 単純かつ低分散混合エントロピー推定器を導出する。限界エントロピーの和と密接に関連していることが示される。エントロピー推定器を装着し,混合ポリシーケースにソフトアクタ-クリティック(sac)のアルゴリズム変種を導出し,一連の連続制御タスクで評価する。

関連論文リスト

Mixtures Closest to a Given Measure: A Semidefinite Programming Approach [1.7969777786551424]
対象測度を有限個のモーメントでしか利用できない問題について検討する。既存の多くのアプローチとは異なり、パラメータ集合は有限ではないと仮定される。クラスタリングには,スタンドアローンのメソッドとして,あるいは前処理のステップとして,フレームワークが機能するアプリケーションを提案する。
論文参考訳（メタデータ） (2025-09-26T19:51:21Z)
Revisiting Convergence: Shuffling Complexity Beyond Lipschitz Smoothness [50.78508362183774]
シャッフル型勾配法はその単純さと迅速な経験的性能のために実践的に好まれる。リプシッツ条件は一般的な機械学習スキームでは満たされないことが多い。
論文参考訳（メタデータ） (2025-07-11T15:36:48Z)
Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-04T17:46:51Z)
Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。スパース・アンミキシングの代替手法の有効性を実証する。
論文参考訳（メタデータ） (2024-01-23T10:07:41Z)
Optimal Algorithms for Stochastic Complementary Composite Minimization [55.26935605535377]
統計学と機械学習における正規化技術に触発され,補完的な複合化の最小化について検討した。予測と高い確率で、新しい過剰なリスク境界を提供する。我々のアルゴリズムはほぼ最適であり、このクラスの問題に対して、新しいより低い複雑性境界によって証明する。
論文参考訳（メタデータ） (2022-11-03T12:40:24Z)
Faster One-Sample Stochastic Conditional Gradient Method for Composite Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文参考訳（メタデータ） (2022-02-26T19:10:48Z)
Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文参考訳（メタデータ） (2021-10-19T17:21:09Z)
Fitting large mixture models using stochastic component selection [0.0]
本稿では,少数のコンポーネントのみを評価するために,計算とメトロポリス・ハスティングスアルゴリズムの期待値の組み合わせを提案する。コンポーネント割り当てのマルコフ連鎖は、アルゴリズムのイテレーション間で順次生成される。提案手法の一般性を重視し,浅い混合モデルと深い混合モデルの両方を訓練する能力を備える。
論文参考訳（メタデータ） (2021-10-10T12:39:53Z)
Clustering a Mixture of Gaussians with Unknown Covariance [4.821312633849745]
最大極大推定に基づくMax-Cut整数プログラムを導出する。最適な速度を得るが、2次サンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発する。我々は Max-Cut プログラムを$k$-means プログラムに一般化する。
論文参考訳（メタデータ） (2021-10-04T17:59:20Z)
Mean-Square Analysis with An Application to Optimal Dimension Dependence of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。我々の理論解析は数値実験によってさらに検証される。
論文参考訳（メタデータ） (2021-09-08T18:00:05Z)
Spectral clustering under degree heterogeneity: a case for the random walk Laplacian [83.79286663107845]
本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みが,ノード次数に対して完全に補正されたベクトル表現を生成することを示す。次数補正ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。
論文参考訳（メタデータ） (2021-05-03T16:36:27Z)
Rigid and Articulated Point Registration with Expectation Conditional Maximization [20.096170794358315]
革新的なEMライクアルゴリズム、すなわちECMPR(Conditional Expectation Maximization for Point Registration)アルゴリズムを紹介します。登録パラメータの推定の観点で、関連する結果について詳細に分析する。堅固な登録を有形登録まで延長します。
論文参考訳（メタデータ） (2020-12-09T17:36:11Z)
Self-regularizing Property of Nonparametric Maximum Likelihood Estimator in Mixture Models [39.27013036481509]
一般ガウス混合に対する非パラメトリック最大度(NPMLE)モデルを導入する。サンプルサイズに基づくNPMLEは高い確率で$O(log n)$原子(質量点)を持つことを示す。特に、任意の混合は、$Olog選択を持つ有限の混合から統計的に入っている。
論文参考訳（メタデータ） (2020-08-19T03:39:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。