論文の概要: Guaranteed Trust Region Optimization via Two-Phase KL Penalization
- arxiv url: http://arxiv.org/abs/2312.05405v1
- Date: Fri, 8 Dec 2023 23:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:12:09.362788
- Title: Guaranteed Trust Region Optimization via Two-Phase KL Penalization
- Title(参考訳): 2相KLペナル化による信頼領域最適化
- Authors: K.R. Zentner, Ujjwal Puri, Zhehui Huang, Gaurav S. Sukhatme
- Abstract要約: 我々は,KLの罰則の適用だけでは,信頼領域を強制するのに十分であることを示す。
そして、すべてのポリシー更新で信頼領域が強制されることを保証するのに、"修正"フェーズの導入が十分であることを示す。
FixPOと呼ばれる結果のアルゴリズムは、さまざまなポリシーアーキテクチャやアクションスペースをトレーニングすることができます。
- 参考スコア(独自算出の注目度): 11.008537121214104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy reinforcement learning (RL) has become a popular framework for
solving sequential decision problems due to its computational efficiency and
theoretical simplicity. Some on-policy methods guarantee every policy update is
constrained to a trust region relative to the prior policy to ensure training
stability. These methods often require computationally intensive non-linear
optimization or require a particular form of action distribution. In this work,
we show that applying KL penalization alone is nearly sufficient to enforce
such trust regions. Then, we show that introducing a "fixup" phase is
sufficient to guarantee a trust region is enforced on every policy update while
adding fewer than 5% additional gradient steps in practice. The resulting
algorithm, which we call FixPO, is able to train a variety of policy
architectures and action spaces, is easy to implement, and produces results
competitive with other trust region methods.
- Abstract(参考訳): on-policy reinforcement learning(rl)はその計算効率と理論上の単純さから、シーケンシャルな意思決定問題を解決するための一般的なフレームワークとなっている。
いくつかのオンポリシー手法は、すべてのポリシー更新が、トレーニングの安定性を確保するために、事前のポリシーに対する信頼領域に制限されることを保証する。
これらの手法は、しばしば計算集約的な非線形最適化を必要とするか、特定の行動分布を必要とする。
本研究では,KL法の適用だけでは,そのような信頼領域を強制するのに十分であることを示す。
次に,「固定」フェーズの導入は,政策更新毎に信頼領域が強制されることを保証するのに十分であり,実際には5%未満の勾配ステップを追加しても十分であることを示す。
FixPOと呼ばれる結果のアルゴリズムは、さまざまなポリシーアーキテクチャやアクションスペースをトレーニングすることができ、実装が容易で、他の信頼できるリージョンメソッドと競合する結果を生成する。
関連論文リスト
- Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。
本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Differentiable Trust Region Layers for Deep Reinforcement Learning [19.33011160278043]
我々は,クローズドフォーム射影による深いガウスポリシーの信頼領域を強制するために,微分可能なニューラルネットワーク層を提案する。
Kullback-Leibler発散、Wasserstein L2距離、およびガウス分布に対するフロベニウスノルムに基づく信頼地域予測を導出する。
論文 参考訳(メタデータ) (2021-01-22T16:52:06Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。