論文の概要: Extreme Value Policy Optimization for Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.12008v1
- Date: Sat, 17 Jan 2026 11:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.414909
- Title: Extreme Value Policy Optimization for Safe Reinforcement Learning
- Title(参考訳): 安全強化学習のための極値ポリシー最適化
- Authors: Shiqing Gao, Yihang Zhou, Shuai Shao, Haoyu Luo, Yiheng Bing, Jiaxin Ding, Luoyi Fu, Xinbing Wang,
- Abstract要約: Constrained Reinforcement Learning (CRL)は、事前定義された制約の下でリターンを最大化することでこの問題に対処する。
しかし、予測に基づく制約は、テール分布における稀だが高影響の極端な値イベントを見落としている。
本稿では、極値理論(EVT)を利用した極値ポリシー最適化(EVO)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 38.341398602157575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring safety is a critical challenge in applying Reinforcement Learning (RL) to real-world scenarios. Constrained Reinforcement Learning (CRL) addresses this by maximizing returns under predefined constraints, typically formulated as the expected cumulative cost. However, expectation-based constraints overlook rare but high-impact extreme value events in the tail distribution, such as black swan incidents, which can lead to severe constraint violations. To address this issue, we propose the Extreme Value policy Optimization (EVO) algorithm, leveraging Extreme Value Theory (EVT) to model and exploit extreme reward and cost samples, reducing constraint violations. EVO introduces an extreme quantile optimization objective to explicitly capture extreme samples in the cost tail distribution. Additionally, we propose an extreme prioritization mechanism during replay, amplifying the learning signal from rare but high-impact extreme samples. Theoretically, we establish upper bounds on expected constraint violations during policy updates, guaranteeing strict constraint satisfaction at a zero-violation quantile level. Further, we demonstrate that EVO achieves a lower probability of constraint violations than expectation-based methods and exhibits lower variance than quantile regression methods. Extensive experiments show that EVO significantly reduces constraint violations during training while maintaining competitive policy performance compared to baselines.
- Abstract(参考訳): 現実のシナリオに強化学習(RL)を適用する上で、安全性の確保は重要な課題である。
Constrained Reinforcement Learning (CRL) は、事前に定義された制約の下でリターンを最大化することでこの問題に対処する。
しかし、予想に基づく制約は、黒白鳥事件のような尾の分布における稀だが高影響の極端な価値事象を見落とし、厳しい制約違反を引き起こす可能性がある。
この問題に対処するために、極値ポリシー最適化(EVO)アルゴリズムを提案し、極値理論(EVT)を利用して極端な報酬とコストサンプルをモデル化し活用し、制約違反を減らす。
EVOは、コストテール分布における極端なサンプルを明示的にキャプチャするための極端量子化最適化の目標を導入する。
さらに,リプレイ中の極端優先順位付け機構を提案し,レアだが高影響の極端サンプルからの学習信号を増幅する。
理論的には、ポリシー更新中に期待される制約違反の上限を確立し、ゼロ違反量子レベルにおける厳密な制約満足度を保証する。
さらに,予想法よりも制約違反の確率が低く,量子回帰法よりも分散度が低いことを示す。
大規模な実験により、EVOはベースラインに比べて競争政策性能を維持しながら、トレーニング中の制約違反を著しく低減することが示された。
関連論文リスト
- Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression [2.592761128203891]
量子ベースのアクションバリュー反復法は、期待されるコスト対ゴーの分布を学習することで、このバイアスを低減する。
既存の手法では、コスト関数の組み合わせによる複雑なニューラルネットワークアーキテクチャや手動のトレードオフが必要になることが多い。
本研究では、複雑なアーキテクチャを使わずに安全性を確保するために、条件付き値-アット・リスクを組み込んだリスク正規化量子化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-08T00:22:00Z) - Tilted Quantile Gradient Updates for Quantile-Constrained Reinforcement Learning [12.721239079824622]
予測型近似を使わずに高いレベルの安全性を実現する安全な強化学習(RL)パラダイムを提案する。
非対称分布密度を補償するために、量子勾配の傾き更新戦略を実装した。
実験により、提案モデルが安全性要件(量子的制約)を完全に満たし、高いリターンで最先端のベンチマークより優れていることが示された。
論文 参考訳(メタデータ) (2024-12-17T18:58:00Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Off-Policy Primal-Dual Safe Reinforcement Learning [16.918188277722503]
本研究では, 累積コスト推定における誤差が, 法外手法を用いた場合のコストの大幅な過小評価を引き起こすことを示す。
本稿では,予測の不確実性を考慮し,制約充足領域の政策を学習する保守的な政策最適化を提案する。
次に,評価の不確実性を徐々に減少させることにより,そのような過小評価の解消を支援するために,局所的な政策凸化を導入する。
論文 参考訳(メタデータ) (2024-01-26T10:33:38Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。