Fugu-MT 論文翻訳(概要): Off-Policy Primal-Dual Safe Reinforcement Learning

論文の概要: Off-Policy Primal-Dual Safe Reinforcement Learning

arxiv url: http://arxiv.org/abs/2401.14758v1
Date: Fri, 26 Jan 2024 10:33:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 15:27:19.706025
Title: Off-Policy Primal-Dual Safe Reinforcement Learning
Title（参考訳）: オフポリシー初歩的安全強化学習
Authors: Zifan Wu, Bo Tang, Qian Lin, Chao Yu, Shangqin Mao, Qianlong Xie, Xingxing Wang, Dong Wang
Abstract要約: 本研究では, 累積コスト推定における誤差が, 法外手法を用いた場合のコストの大幅な過小評価を引き起こすことを示す。本稿では,コスト見積の不確実性を考慮したテキスト保守型政策最適化手法を提案する。次に、評価の不確実性を徐々に減らし、そのような亜最適性を排除するために、textitWulocal Policy convexを導入する。
参考スコア（独自算出の注目度）: 17.64685813460148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Primal-dual safe RL methods commonly perform iterations between the primal update of the policy and the dual update of the Lagrange Multiplier. Such a training paradigm is highly susceptible to the error in cumulative cost estimation since this estimation serves as the key bond connecting the primal and dual update processes. We show that this problem causes significant underestimation of cost when using off-policy methods, leading to the failure to satisfy the safety constraint. To address this issue, we propose \textit{conservative policy optimization}, which learns a policy in a constraint-satisfying area by considering the uncertainty in cost estimation. This improves constraint satisfaction but also potentially hinders reward maximization. We then introduce \textit{local policy convexification} to help eliminate such suboptimality by gradually reducing the estimation uncertainty. We provide theoretical interpretations of the joint coupling effect of these two ingredients and further verify them by extensive experiments. Results on benchmark tasks show that our method not only achieves an asymptotic performance comparable to state-of-the-art on-policy methods while using much fewer samples, but also significantly reduces constraint violation during training. Our code is available at https://github.com/ZifanWu/CAL.
Abstract（参考訳）: プライマルデュアルセーフなRL法は、ポリシーのプライマリ更新とラグランジュ乗算器の二重更新の繰り返しを一般的に行う。このようなトレーニングパラダイムは、プライマル更新プロセスとデュアル更新プロセスを結ぶ鍵結合としての役割を担っているため、累積コスト推定の誤差に非常に影響を受けやすい。本研究は,オフポリシー手法を用いた場合のコストの過小評価を招き,安全性制約を満たさないことを示す。この問題を解決するために,コスト見積の不確実性を考慮して制約満足領域のポリシーを学習する「textit{conservative Policy Optimization」を提案する。これにより制約満足度は向上するが、報酬の最大化を妨げる可能性がある。次に,推定の不確かさを徐々に減少させることで,そのような部分最適性を排除するために, \textit{local policy convexification}を導入する。これら2つの成分の結合効果の理論的解釈を行い、より広範な実験により検証する。ベンチマーク結果から,本手法は最先端のオン・ポリシー法に匹敵する漸近的性能を実現するだけでなく,トレーニング中の制約違反を著しく低減することが示された。私たちのコードはhttps://github.com/zifanwu/calで利用可能です。

関連論文リスト

Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。 RRPOは双対の定式化に頼ることなく、主問題に直接作用する。我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文参考訳（メタデータ） (2025-08-24T16:59:38Z)
On Corruption-Robustness in Performative Reinforcement Learning [13.509499718691016]
本研究では,反復的再訓練アプローチの適応的安定政策への収束性について検討する。私たちはこれらのアプローチを拡張して、腐敗したデータの下で運用します。我々は,我々のアプローチがほぼ安定な政策に最終段階の収束を示すことを証明した。
論文参考訳（メタデータ） (2025-05-08T19:37:35Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-18T19:53:56Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Handling Cost and Constraints with Off-Policy Deep Reinforcement Learning [2.793095554369282]
政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
論文参考訳（メタデータ） (2023-11-30T16:31:04Z)
Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2023-10-10T02:45:50Z)
Solving Richly Constrained Reinforcement Learning through State Augmentation and Reward Penalties [8.86470998648085]
主な課題は、ポリシーを使用して蓄積された期待されるコストを扱うことだ。既存の手法は、政策全体に対するこのコスト制約を、局所的な決定に対する制約に変換する革新的な方法を開発した。我々は、拡張状態空間と報酬ペナルティを有する制約付きRLに等価な制約のない定式化を提供する。
論文参考訳（メタデータ） (2023-01-27T08:33:08Z)
Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。 P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。 P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-05-24T06:15:51Z)
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文参考訳（メタデータ） (2022-04-19T15:55:47Z)
State Augmented Constrained Reinforcement Learning: Overcoming the Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文参考訳（メタデータ） (2021-02-23T21:07:35Z)
Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文参考訳（メタデータ） (2021-02-18T08:54:14Z)
Projection-Based Constrained Policy Optimization [34.555500347840805]
我々は,PCPO (Projection-based Constrained Policy Optimization) という新しいアルゴリズムを提案する。 PCPOは、最先端の手法に比べて3.5倍以上の制約違反と約15%の報酬を達成している。
論文参考訳（メタデータ） (2020-10-07T04:22:45Z)
DDPG++: Striving for Simplicity in Continuous-control Off-Policy Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文参考訳（メタデータ） (2020-06-26T20:21:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。