論文の概要: Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality
- arxiv url: http://arxiv.org/abs/2303.12785v3
- Date: Mon, 07 Oct 2024 20:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:28.113610
- Title: Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality
- Title(参考訳): エントロピー規則化RLのためのマトリオシカ政策のグラディエント:収束性とグローバル最適性
- Authors: François Ged, Maria Han Veiga,
- Abstract要約: The novel Policy Gradient (PG) algorithm called $textitMatryoshka Policy Gradient$ (MPG) is introduced and study。
我々は,MPGのグローバル収束とともに,エントロピー正規化目標の最適方針を証明し,特徴付ける。
概念実証として,標準テストベンチマークでMPGを数値的に評価する。
- 参考スコア(独自算出の注目度): 0.5261718469769449
- License:
- Abstract: A novel Policy Gradient (PG) algorithm, called $\textit{Matryoshka Policy Gradient}$ (MPG), is introduced and studied, in the context of fixed-horizon max-entropy reinforcement learning, where an agent aims at maximizing entropy bonuses additional to its cumulative rewards. In the linear function approximation setting with softmax policies, we prove uniqueness and characterize the optimal policy of the entropy regularized objective, together with global convergence of MPG. These results are proved in the case of continuous state and action space. MPG is intuitive, theoretically sound and we furthermore show that the optimal policy of the infinite horizon max-entropy objective can be approximated arbitrarily well by the optimal policy of the MPG framework. Finally, we provide a criterion for global optimality when the policy is parametrized by a neural network in terms of the neural tangent kernel at convergence. As a proof of concept, we evaluate numerically MPG on standard test benchmarks.
- Abstract(参考訳): The novel Policy Gradient (PG) algorithm called $\textit{Matryoshka Policy Gradient}$ (MPG) was introduced and study in the context of the fixed-horizon max-entropy reinforcement learning。
ソフトマックスポリシを用いた線形関数近似設定では,MPGのグローバル収束とともに,エントロピー正規化対象の最適ポリシの特異性を証明し,特徴付ける。
これらの結果は連続状態と作用空間の場合に証明される。
さらに,MPGフレームワークの最適ポリシにより,無限水平最大エントロピー目標の最適ポリシを任意に近似できることを示す。
最後に,ニューラルネットワークが収束時のニューラル・タンジェント・カーネルの観点でポリシをパラメータ化する場合に,大域的最適性の基準を提供する。
概念実証として,標準テストベンチマークでMPGを数値的に評価する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Convergence for Natural Policy Gradient on Infinite-State Average-Reward
Markov Decision Processes [15.89915930948668]
無限状態平均逆 MDP に対する NPG アルゴリズムの第一収束率を証明した。
大規模な待ち行列型MDPの文脈では、MaxWeightポリシーは私たちの初期政治要件を満たすのに十分であることを示す。
論文 参考訳(メタデータ) (2024-02-07T21:43:57Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Convergence and Price of Anarchy Guarantees of the Softmax Policy
Gradient in Markov Potential Games [7.878934648314757]
マルコフポテンシャルゲーム(MPG)のサブクラスに対するポリシー勾配法の性能について検討する。
我々は、MPGを解くために、正規形式ゲームにおけるアナーキー(POA)と滑らかさの概念を拡張した。
私たちの知る限り、MPGを解くための最初のPOAバウンドです。
論文 参考訳(メタデータ) (2022-06-15T16:41:06Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。