論文の概要: Spectral-Risk Safe Reinforcement Learning with Convergence Guarantees
- arxiv url: http://arxiv.org/abs/2405.18698v1
- Date: Wed, 29 May 2024 02:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:04:06.828086
- Title: Spectral-Risk Safe Reinforcement Learning with Convergence Guarantees
- Title(参考訳): 収束保証者によるスペクトルリスク安全強化学習
- Authors: Dohyeong Kim, Taehyun Cho, Seungyub Han, Hojun Chung, Kyungjae Lee, Songhwai Oh,
- Abstract要約: 本稿では、スペクトルリスク尺度制約付きRLアルゴリズム、スペクトルリスク制約付きポリシー最適化(SRCPO)を提案する。
双レベル最適化構造では、外部問題はリスク測度から導出される双対変数を最適化することであり、内部問題は最適ポリシーを見つけることである。
提案手法は連続制御タスク上で評価され,制約を満たす他のRCRLアルゴリズムの中で最高の性能を示した。
- 参考スコア(独自算出の注目度): 13.470544618339506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The field of risk-constrained reinforcement learning (RCRL) has been developed to effectively reduce the likelihood of worst-case scenarios by explicitly handling risk-measure-based constraints. However, the nonlinearity of risk measures makes it challenging to achieve convergence and optimality. To overcome the difficulties posed by the nonlinearity, we propose a spectral risk measure-constrained RL algorithm, spectral-risk-constrained policy optimization (SRCPO), a bilevel optimization approach that utilizes the duality of spectral risk measures. In the bilevel optimization structure, the outer problem involves optimizing dual variables derived from the risk measures, while the inner problem involves finding an optimal policy given these dual variables. The proposed method, to the best of our knowledge, is the first to guarantee convergence to an optimum in the tabular setting. Furthermore, the proposed method has been evaluated on continuous control tasks and showed the best performance among other RCRL algorithms satisfying the constraints.
- Abstract(参考訳): リスク対応型強化学習(RCRL)の分野は,リスク対策に基づく制約を明示的に扱うことにより,最悪のシナリオの可能性を効果的に低減するために開発されている。
しかし、リスク尺度の非線形性は収束性と最適性を達成することを困難にしている。
非線形性によって引き起こされる困難を克服するために,スペクトルリスク尺度制約付きRLアルゴリズム,スペクトルリスク制約付きポリシー最適化(SRCPO)を提案する。
双レベル最適化構造では、外部問題はリスク測度から導出される双対変数を最適化することであり、内部問題はこれらの双対変数が与えられたときの最適ポリシーを見つけることである。
提案手法は,我々の知る限り,表の設定における最適収束を保証する最初の方法である。
さらに,提案手法は連続制御タスク上で評価され,制約を満たす他のRCRLアルゴリズムの中で最高の性能を示した。
関連論文リスト
- Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Distributional Reinforcement Learning with Online Risk-awareness
Adaption [5.363478475460403]
オンラインリスク適応型分散RL(DRL-ORA)を新たに導入する。
DRL-ORAは、オンラインの総変動最小化問題を解くことにより、てんかんのリスクレベルを動的に選択する。
DRL-ORAは、固定リスクレベルまたは手動で決められたリスクレベルに依存する既存の手法よりも優れている、複数のタスクのクラスを示す。
論文 参考訳(メタデータ) (2023-10-08T14:32:23Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Constrained Proximal Policy Optimization [36.20839673950677]
制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。
提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。
複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T16:33:55Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。
本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-22T17:26:28Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。