Fugu-MT 論文翻訳(概要): Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality

論文の概要: Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality

arxiv url: http://arxiv.org/abs/2303.12785v2
Date: Sun, 25 Jun 2023 10:35:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 23:19:43.977085
Title: Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality
Title（参考訳）: エントロピー規則化RLのためのマトリルシュカ政策-収束とグローバル最適性
Authors: Fran\c{c}ois Ged and Maria Han Veiga
Abstract要約: 最大エントロピー強化学習(max-entropy reinforcement learning)の観点から,Materyoshka Policy Gradient (MPG)を紹介し,検討した。 MPGは、単一の標準目標に対する単一のポリシーの代わりに、有限地平線タスクを同時に学習するために一連のポリシーを訓練する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A novel Policy Gradient (PG) algorithm, called Matryoshka Policy Gradient (MPG), is introduced and studied, in the context of max-entropy reinforcement learning, where an agent aims at maximising entropy bonuses additional to its cumulative rewards. MPG differs from standard PG in that it trains a sequence of policies to learn finite horizon tasks simultaneously, instead of a single policy for the single standard objective. For softmax policies, we prove convergence of MPG and global optimality of the limit by showing that the only critical point of the MPG objective is the optimal policy; these results hold true even in the case of continuous compact state space. MPG is intuitive, theoretically sound and we furthermore show that the optimal policy of the standard max-entropy objective can be approximated arbitrarily well by the optimal policy of the MPG framework. Finally, we justify that MPG is well suited when the policies are parametrized with neural networks and we provide an simple criterion to verify the global optimality of the policy at convergence. As a proof of concept, we evaluate numerically MPG on standard test benchmarks.
Abstract（参考訳）: エージェントがその累積報酬に加えてエントロピーボーナスを最大化することを目的とした最大エントロピー強化学習(max-Entropy reinforcement learning)の文脈において、Matryoshka Policy Gradient (MPG)と呼ばれる新しいポリシーグラディエント(PG)アルゴリズムを導入、研究している。 MPGは標準PGと異なり、単一の標準目的のための単一のポリシーではなく、有限地平線タスクを同時に学習するための一連のポリシーを訓練する。ソフトマックスポリシーに対しては、MPGの目的の唯一の臨界点が最適ポリシーであることを示すことによって、MPGの収束と極限の大域的最適性を証明する。 mpgは直感的かつ理論的に健全であり、さらに、標準マックスエントロピー目標の最適ポリシーは、mpgフレームワークの最適ポリシーによって任意に近似できることを示した。最後に、MPGは、ニューラルネットワークでポリシーをパラメータ化する場合に適しており、収束時のポリシーのグローバルな最適性を検証するための簡単な基準を提供する。概念実証として,標準テストベンチマークを用いて数値MPGを評価する。

関連論文リスト

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic [12.256817975993128]
相対的ポリシー最適化はDeepSeekMathとDeepSeek-R1の中核となる方法論的コンポーネントである。本稿では,従来のU-統計学のレンズを通してGRPOを理解するための統一的な枠組みを提供する。
論文参考訳（メタデータ） (2026-03-01T15:56:43Z)
Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文参考訳（メタデータ） (2025-10-06T01:56:31Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Rethinking the Global Convergence of Softmax Policy Gradient with Linear Function Approximation [52.772454746132276]
問題依存量のモデル化における近似誤差は,アルゴリズムのグローバル収束とは無関係であることを示す。我々は,任意の定値学習率を持つ$textttLin-SPG$が,最適ポリシーへのグローバル収束を保証することを証明した。
論文参考訳（メタデータ） (2025-05-06T04:03:06Z)
Ordering-based Conditions for Global Convergence of Policy Gradient Methods [73.6366483406033]
線形関数近似を持つ有限腕バンディットに対して、ポリシー勾配法(PG)のグローバル収束はポリシー更新と表現の間の関係性に依存することを証明した。全体として、これらの観測は線形関数近似の下でのPG法の大域収束を特徴づけるための適切な量として、疑問近似誤差を訴えている。
論文参考訳（メタデータ） (2025-04-02T21:06:28Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文参考訳（メタデータ） (2024-03-11T15:25:03Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Convergence and Price of Anarchy Guarantees of the Softmax Policy Gradient in Markov Potential Games [7.878934648314757]
マルコフポテンシャルゲーム(MPG)のサブクラスに対するポリシー勾配法の性能について検討する。我々は、MPGを解くために、正規形式ゲームにおけるアナーキー(POA)と滑らかさの概念を拡張した。私たちの知る限り、MPGを解くための最初のPOAバウンドです。
論文参考訳（メタデータ） (2022-06-15T16:41:06Z)
Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-10T21:09:44Z)
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文参考訳（メタデータ） (2022-06-06T04:28:04Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。勾配に基づく解法を用いる場合、REPSの性能には保証がない。最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文参考訳（メタデータ） (2021-03-17T16:22:59Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Fast Global Convergence of Natural Policy Gradient Methods with Entropy Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。この結果から, エントロピー正則化の役割を浮き彫りにした。
論文参考訳（メタデータ） (2020-07-13T17:58:41Z)
When Will Generative Adversarial Imitation Learning Algorithms Attain Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文参考訳（メタデータ） (2020-06-24T06:24:37Z)
Neural Proximal/Trust Region Policy Optimization Attains Globally Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文参考訳（メタデータ） (2019-06-25T03:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。