論文の概要: Supported Trust Region Optimization for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.08935v1
- Date: Wed, 15 Nov 2023 13:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:55:07.223106
- Title: Supported Trust Region Optimization for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための信頼領域最適化支援
- Authors: Yixiu Mao, Hongchang Zhang, Chen Chen, Yi Xu, Xiangyang Ji
- Abstract要約: 本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
- 参考スコア(独自算出の注目度): 59.43508325943592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning suffers from the out-of-distribution issue and
extrapolation error. Most policy constraint methods regularize the density of
the trained policy towards the behavior policy, which is too restrictive in
most cases. We propose Supported Trust Region optimization (STR) which performs
trust region policy optimization with the policy constrained within the support
of the behavior policy, enjoying the less restrictive support constraint. We
show that, when assuming no approximation and sampling error, STR guarantees
strict policy improvement until convergence to the optimal support-constrained
policy in the dataset. Further with both errors incorporated, STR still
guarantees safe policy improvement for each step. Empirical results validate
the theory of STR and demonstrate its state-of-the-art performance on MuJoCo
locomotion domains and much more challenging AntMaze domains.
- Abstract(参考訳): オフライン強化学習は配布外問題と外挿誤差に悩まされる。
ほとんどの政策制約手法は、訓練された政策の行動方針に対する密度を規則化するが、ほとんどの場合、あまりに制限的すぎる。
本稿では,信頼地域政策最適化を行動政策の支持範囲内で制約し,制約の少ないサポート制約を享受する,信頼地域政策最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
さらに、両方のエラーが組み込まれているため、STRはステップ毎に安全なポリシー改善を保証します。
実験的な結果はSTRの理論を検証し、MuJoCoの移動領域における最先端のパフォーマンスとより挑戦的なAntMazeドメインを実証する。
関連論文リスト
- Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。
本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Guaranteed Trust Region Optimization via Two-Phase KL Penalization [11.008537121214104]
我々は,KLの罰則の適用だけでは,信頼領域を強制するのに十分であることを示す。
そして、すべてのポリシー更新で信頼領域が強制されることを保証するのに、"修正"フェーズの導入が十分であることを示す。
FixPOと呼ばれる結果のアルゴリズムは、さまざまなポリシーアーキテクチャやアクションスペースをトレーニングすることができます。
論文 参考訳(メタデータ) (2023-12-08T23:29:57Z) - Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods [21.950484108431944]
信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。
我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。
WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
論文 参考訳(メタデータ) (2023-06-25T05:41:38Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。