論文の概要: Off-Policy Primal-Dual Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.14758v2
- Date: Mon, 15 Apr 2024 13:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 23:15:44.822674
- Title: Off-Policy Primal-Dual Safe Reinforcement Learning
- Title(参考訳): オフポリティ・プライマル・デュアル・セーフ強化学習
- Authors: Zifan Wu, Bo Tang, Qian Lin, Chao Yu, Shangqin Mao, Qianlong Xie, Xingxing Wang, Dong Wang,
- Abstract要約: 本研究では, 累積コスト推定における誤差が, 法外手法を用いた場合のコストの大幅な過小評価を引き起こすことを示す。
本稿では,予測の不確実性を考慮し,制約充足領域の政策を学習する保守的な政策最適化を提案する。
次に,評価の不確実性を徐々に減少させることにより,そのような過小評価の解消を支援するために,局所的な政策凸化を導入する。
- 参考スコア(独自算出の注目度): 16.918188277722503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Primal-dual safe RL methods commonly perform iterations between the primal update of the policy and the dual update of the Lagrange Multiplier. Such a training paradigm is highly susceptible to the error in cumulative cost estimation since this estimation serves as the key bond connecting the primal and dual update processes. We show that this problem causes significant underestimation of cost when using off-policy methods, leading to the failure to satisfy the safety constraint. To address this issue, we propose conservative policy optimization, which learns a policy in a constraint-satisfying area by considering the uncertainty in cost estimation. This improves constraint satisfaction but also potentially hinders reward maximization. We then introduce local policy convexification to help eliminate such suboptimality by gradually reducing the estimation uncertainty. We provide theoretical interpretations of the joint coupling effect of these two ingredients and further verify them by extensive experiments. Results on benchmark tasks show that our method not only achieves an asymptotic performance comparable to state-of-the-art on-policy methods while using much fewer samples, but also significantly reduces constraint violation during training. Our code is available at https://github.com/ZifanWu/CAL.
- Abstract(参考訳): プライマルデュアルセーフなRL法は、ポリシーのプライマリ更新とラグランジュ乗算器の二重更新の繰り返しを一般的に行う。
このような訓練パラダイムは, 累積コスト推定における誤差に非常に敏感である。
本稿は, 法外手法を用いた場合のコストの大幅な過小評価を行ない, 安全性の制約を満たすことができないことを示す。
この問題に対処するため,コスト見積の不確実性を考慮し,制約充足領域の政策を学習する保守的な政策最適化を提案する。
これにより、制約満足度は向上するが、報酬の最大化を妨げる可能性がある。
次に,評価の不確実性を徐々に減少させることにより,そのような過小評価の解消を支援するために,局所的な政策凸化を導入する。
これら2つの成分の結合効果の理論的解釈を行い、より広範な実験により検証する。
ベンチマークタスクの結果から,我々の手法は,最先端のオンライン手法に匹敵する漸近的な性能を達成できるだけでなく,トレーニング中の制約違反を著しく低減することが示された。
私たちのコードはhttps://github.com/ZifanWu/CAL.comで公開されています。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Handling Cost and Constraints with Off-Policy Deep Reinforcement
Learning [2.793095554369282]
政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。
我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。
この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
論文 参考訳(メタデータ) (2023-11-30T16:31:04Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Solving Richly Constrained Reinforcement Learning through State
Augmentation and Reward Penalties [8.86470998648085]
主な課題は、ポリシーを使用して蓄積された期待されるコストを扱うことだ。
既存の手法は、政策全体に対するこのコスト制約を、局所的な決定に対する制約に変換する革新的な方法を開発した。
我々は、拡張状態空間と報酬ペナルティを有する制約付きRLに等価な制約のない定式化を提供する。
論文 参考訳(メタデータ) (2023-01-27T08:33:08Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Projection-Based Constrained Policy Optimization [34.555500347840805]
我々は,PCPO (Projection-based Constrained Policy Optimization) という新しいアルゴリズムを提案する。
PCPOは、最先端の手法に比べて3.5倍以上の制約違反と約15%の報酬を達成している。
論文 参考訳(メタデータ) (2020-10-07T04:22:45Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。