論文の概要: Extreme Risk Mitigation in Reinforcement Learning using Extreme Value
Theory
- arxiv url: http://arxiv.org/abs/2308.13011v1
- Date: Thu, 24 Aug 2023 18:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:21:48.659937
- Title: Extreme Risk Mitigation in Reinforcement Learning using Extreme Value
Theory
- Title(参考訳): 極値理論を用いた強化学習における極リスク軽減
- Authors: Karthik Somayaji NS, Yu Wang, Malachi Schram, Jan Drgona, Mahantesh
Halappanavar, Frank Liu, Peng Li
- Abstract要約: リスク認識の重要な側面は、破滅的な結果をもたらす可能性のある非常に稀なリスクイベント(リワード)をモデル化することである。
リスクを意識したRL手法は存在するが、リスク回避のレベルは状態-作用値関数の推定の精度に大きく依存している。
本研究では、状態-作用値関数分布によって予測される極端な値の予測を精査することに着目し、非常に稀で危険な事象に直面した場合のRLエージェントのレジリエンスを高めることを提案する。
- 参考スコア(独自算出の注目度): 10.288413564829579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk-sensitive reinforcement learning (RL) has garnered significant attention
in recent years due to the growing interest in deploying RL agents in
real-world scenarios. A critical aspect of risk awareness involves modeling
highly rare risk events (rewards) that could potentially lead to catastrophic
outcomes. These infrequent occurrences present a formidable challenge for
data-driven methods aiming to capture such risky events accurately. While
risk-aware RL techniques do exist, their level of risk aversion heavily relies
on the precision of the state-action value function estimation when modeling
these rare occurrences. Our work proposes to enhance the resilience of RL
agents when faced with very rare and risky events by focusing on refining the
predictions of the extreme values predicted by the state-action value function
distribution. To achieve this, we formulate the extreme values of the
state-action value function distribution as parameterized distributions,
drawing inspiration from the principles of extreme value theory (EVT). This
approach effectively addresses the issue of infrequent occurrence by leveraging
EVT-based parameterization. Importantly, we theoretically demonstrate the
advantages of employing these parameterized distributions in contrast to other
risk-averse algorithms. Our evaluations show that the proposed method
outperforms other risk averse RL algorithms on a diverse range of benchmark
tasks, each encompassing distinct risk scenarios.
- Abstract(参考訳): リスク感応性強化学習(RL)は、現実のシナリオにRLエージェントを配置することへの関心が高まり、近年大きな注目を集めている。
リスク認識の重要な側面は、破滅的な結果をもたらす可能性のある非常に稀なリスクイベント(リワード)をモデル化することである。
このような頻繁な発生は、このようなリスクの高いイベントを正確に捉えようとするデータ駆動型メソッドにとって大きな課題となる。
リスクを意識したRL手法は存在するが、リスク回避のレベルはこれらの稀な事象をモデル化する際の状態-作用値関数推定の精度に大きく依存している。
本研究は, 状態-作用値関数分布によって予測される極端値の予測を洗練することに着目し, 非常に稀でリスクの高い事象に直面すると, rlエージェントの弾力性を高めることを目的とする。
これを実現するために、パラメータ化分布として状態-作用値関数分布の極端な値を定式化し、極値理論(EVT)の原理から着想を得た。
本手法は, EVTに基づくパラメータ化を利用して, 発生頻度の低い問題に効果的に対処する。
重要なことは、他のリスク-逆アルゴリズムとは対照的に、これらのパラメータ化分布を用いる利点を理論的に示すことである。
提案手法は,異なるリスクシナリオを含む様々なベンチマークタスクにおいて,他のリスク逆RLアルゴリズムよりも優れていることを示す。
関連論文リスト
- Continuous-time Risk-sensitive Reinforcement Learning via Quadratic Variation Penalty [5.710971447109951]
本稿では,連続時間リスク感応性強化学習(RL)について検討する。
従来の政策勾配表現は2次変動の非線形性に起因するリスク感受性問題には不十分である。
本稿では,メルトンの投資問題に対する提案アルゴリズムの収束性を証明し,学習過程の挙動に対する温度パラメータの影響を定量化する。
論文 参考訳(メタデータ) (2024-04-19T03:05:41Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Risk-Aware Reinforcement Learning through Optimal Transport Theory [4.8951183832371]
本稿では、リスク対応フレームワークを構築するために、最適輸送理論と強化学習(RL)の統合を開拓する。
提案手法は目的関数を修正し,得られたポリシが期待される報酬を最大化するだけでなく,OT距離によって規定されるリスク制約も尊重する。
我々の貢献は、リスク分布、最適値関数、政策行動の間の関係をマッピングする一連の定理で裏付けられている。
論文 参考訳(メタデータ) (2023-09-12T13:55:01Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Automatic Risk Adaptation in Distributional Reinforcement Learning [26.113528145137497]
実践的応用における強化学習(RL)エージェントの使用は、最適以下の結果を考慮する必要がある。
これは特に安全クリティカルな環境において重要であり、エラーは高いコストや損害をもたらす可能性がある。
リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。
論文 参考訳(メタデータ) (2021-06-11T11:31:04Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。