論文の概要: Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.08526v1
- Date: Thu, 09 Oct 2025 17:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.274304
- Title: Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning
- Title(参考訳): エントロピー正規化と分散強化学習のための収束理論
- Authors: Yash Jhaveri, Harley Wiltzer, Patrick Shafto, Marc G. Bellemare, David Meger,
- Abstract要約: 本稿では,特定の最適政策への収束を保証する政策最適化の理論的枠組みを提案する。
本手法は,正則化温度が消えるにつれて,解釈可能かつ多様性を保った最適政策を実現する。
本稿では,その解釈可能かつ多様性を保った最適ポリシに関連する回帰分布を任意の精度で推定するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 28.409877186788744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the pursuit of finding an optimal policy, reinforcement learning (RL) methods generally ignore the properties of learned policies apart from their expected return. Thus, even when successful, it is difficult to characterize which policies will be learned and what they will do. In this work, we present a theoretical framework for policy optimization that guarantees convergence to a particular optimal policy, via vanishing entropy regularization and a temperature decoupling gambit. Our approach realizes an interpretable, diversity-preserving optimal policy as the regularization temperature vanishes and ensures the convergence of policy derived objects--value functions and return distributions. In a particular instance of our method, for example, the realized policy samples all optimal actions uniformly. Leveraging our temperature decoupling gambit, we present an algorithm that estimates, to arbitrary accuracy, the return distribution associated to its interpretable, diversity-preserving optimal policy.
- Abstract(参考訳): 最適政策の探索において、強化学習(RL)手法は一般的に、期待された回帰とは別に学習方針の特性を無視する。
したがって、成功しても、どの方針が学習され、何をするのかを特徴づけるのは困難である。
本研究では,エントロピー正則化の消滅と温度デカップリングギャンビットによる,特定の最適政策への収束を保証する政策最適化の理論的枠組みを提案する。
本手法は,正則化温度が消滅し,対象値関数と戻り分布の収束を保証するため,解釈可能かつ多様性を保った最適政策を実現する。
例えば、我々の方法の特定の例では、実現されたポリシーは全ての最適なアクションを均一にサンプリングする。
温度デカップリングギャンビットを利用して、任意の精度で、その解釈可能で多様性を保った最適ポリシーに関連する戻り分布を推定するアルゴリズムを提案する。
関連論文リスト
- Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。
この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。
政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-09-28T18:56:48Z) - Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees [8.610425739792284]
RLにおける非政治政策最適化の領域を再考する。
一般的に使用されるアプローチの1つは、代理目的を最適化するために、政治外の政策勾配を活用することである。
このアプローチは、分散ミスマッチの問題に悩まされていることが示されている。
論文 参考訳(メタデータ) (2022-12-10T07:47:04Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。