Fugu-MT 論文翻訳(概要): RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk

論文の概要: RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk

arxiv url: http://arxiv.org/abs/2209.04067v1
Date: Fri, 9 Sep 2022 00:34:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-12 12:15:27.765285
Title: RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk
Title（参考訳）: RASR:EVaRとエントロピーリスクを備えたリスク逆ソフトロバストMDP
Authors: Jia Lin Hai, Marek Petrik, Mohammad Ghavamzadeh, Reazul Russel
Abstract要約: 本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
参考スコア（独自算出の注目度）: 28.811725782388688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior work on safe Reinforcement Learning (RL) has studied risk-aversion to randomness in dynamics (aleatory) and to model uncertainty (epistemic) in isolation. We propose and analyze a new framework to jointly model the risk associated with epistemic and aleatory uncertainties in finite-horizon and discounted infinite-horizon MDPs. We call this framework that combines Risk-Averse and Soft-Robust methods RASR. We show that when the risk-aversion is defined using either EVaR or the entropic risk, the optimal policy in RASR can be computed efficiently using a new dynamic program formulation with a time-dependent risk level. As a result, the optimal risk-averse policies are deterministic but time-dependent, even in the infinite-horizon discounted setting. We also show that particular RASR objectives reduce to risk-averse RL with mean posterior transition probabilities. Our empirical results show that our new algorithms consistently mitigate uncertainty as measured by EVaR and other standard risk measures.
Abstract（参考訳）: 安全強化学習(rl)の先行研究は、力学におけるランダム性へのリスク回避と、独立して不確実性(epistemic)をモデル化することを研究した。本稿では,有限ホリゾンとディスカウント無限ホリゾンmdpの認識的不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,解析する。リスク・アバース法とソフト・ロバスト法を組み合わせたフレームワークをRASRと呼ぶ。リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。その結果、最適リスク-逆ポリシは決定論的だが、無限水平割引設定でも時間依存である。また,特定のRASR目標が,平均後進遷移確率を持つリスク逆RLに還元されることも示した。実験の結果,新しいアルゴリズムはEVaRや他の標準リスク対策によって測定された不確実性を一貫して緩和することが示された。

関連論文リスト

Risk-sensitive Actor-Critic with Static Spectral Risk Measures for Online and Offline Reinforcement Learning [4.8342038441006805]
静的スペクトルリスク対策(SRM)の最適化のための新しい枠組みを提案する。我々のアルゴリズムは、さまざまなドメインにわたるオンラインとオフラインの両方の環境において、既存のリスクに敏感な手法より一貫して優れています。
論文参考訳（メタデータ） (2025-07-05T04:41:54Z)
Risk-averse Total-reward MDPs with ERM and EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文参考訳（メタデータ） (2024-08-30T13:33:18Z)
Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文参考訳（メタデータ） (2024-05-02T20:28:49Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz Dynamic Risk Measures [23.46659319363579]
EmphLipschitz動的リスク尺度に適用した2つのモデルベースアルゴリズムを提案する。特に、私たちの上限は、アクションの数とエピソード数に最適な依存を示す。
論文参考訳（メタデータ） (2023-06-04T16:24:19Z)
Safe Deployment for Counterfactual Learning to Rank with Exposure-Based Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文参考訳（メタデータ） (2023-04-26T15:54:23Z)
Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文参考訳（メタデータ） (2023-01-14T21:43:18Z)
One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文参考訳（メタデータ） (2022-11-30T21:24:11Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)
Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文参考訳（メタデータ） (2020-06-15T05:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。