Fugu-MT 論文翻訳(概要): Cautious Policy Programming: Exploiting KL Regularization in Monotonic Policy Improvement for Reinforcement Learning

論文の概要: Cautious Policy Programming: Exploiting KL Regularization in Monotonic Policy Improvement for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2107.05798v1
Date: Tue, 13 Jul 2021 01:03:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-14 14:55:09.507586
Title: Cautious Policy Programming: Exploiting KL Regularization in Monotonic Policy Improvement for Reinforcement Learning
Title（参考訳）: 注意政策プログラミング:強化学習のための単調政策改善におけるkl正規化の活用
Authors: Lingwei Zhu, Toshinori Kitamura, Takamitsu Matsubara
Abstract要約: 本稿では,学習中の単調な政策改善を確実にする,新しい値ベース強化学習(RL)アルゴリズムを提案する。提案アルゴリズムは,古典的操作問題と高次元アタリゲームの両方において,性能と安定性を両立させることができることを示す。
参考スコア（独自算出の注目度）: 11.82492300303637
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose cautious policy programming (CPP), a novel value-based reinforcement learning (RL) algorithm that can ensure monotonic policy improvement during learning. Based on the nature of entropy-regularized RL, we derive a new entropy regularization-aware lower bound of policy improvement that only requires estimating the expected policy advantage function. CPP leverages this lower bound as a criterion for adjusting the degree of a policy update for alleviating policy oscillation. Different from similar algorithms that are mostly theory-oriented, we also propose a novel interpolation scheme that makes CPP better scale in high dimensional control problems. We demonstrate that the proposed algorithm can trade o? performance and stability in both didactic classic control problems and challenging high-dimensional Atari games.
Abstract（参考訳）: 本稿では,学習中に単調なポリシー改善を実現するための新しい価値ベース強化学習(rl)アルゴリズムである,注意ポリシープログラミング(cpp)を提案する。エントロピー正規化rlの性質に基づき、期待されるポリシーアドバンテージ関数を推定するだけで済む新しいエントロピー正規化・アウェアローバウンドのポリシー改善を導出する。 cppはこの下限を基準として、政策の変動を軽減するための政策更新の程度を調整する。主に理論指向の類似アルゴリズムと異なり、CPPを高次元制御問題においてより良くスケールさせる新しい補間スキームも提案する。提案アルゴリズムがoを取引できることを実証する。ドクティック古典制御問題と高次元アタリゲームの両方のパフォーマンスと安定性。

関連論文リスト

Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning [0.46040036610482665]
累積プロスペクト理論(CPT)は、経験的証拠によって支持された人間に基づく意思決定のためのより良いモデルを提供するために開発された。数年前、CPTは強化学習(Reinforcement Learning, RL)と組み合わせて、CPTポリシー最適化問題を定式化した。政策勾配アルゴリズムは, 既存のゼロ次アルゴリズムと比較して, 同じ問題を解くために, より大きな状態空間に拡張可能であることを示す。
論文参考訳（メタデータ） (2024-10-03T15:45:39Z)
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-25T00:30:58Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees [8.610425739792284]
RLにおける非政治政策最適化の領域を再考する。一般的に使用されるアプローチの1つは、代理目的を最適化するために、政治外の政策勾配を活用することである。このアプローチは、分散ミスマッチの問題に悩まされていることが示されている。
論文参考訳（メタデータ） (2022-12-10T07:47:04Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
Beyond the Policy Gradient Theorem for Efficient Policy Updates in Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文参考訳（メタデータ） (2022-02-15T15:04:10Z)
Hinge Policy Optimization: Rethinking Policy Improvement and Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。 PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文参考訳（メタデータ） (2021-10-26T15:56:57Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-08-25T04:09:18Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。