論文の概要: Off-Policy Risk Assessment in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2209.10444v1
- Date: Wed, 21 Sep 2022 15:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:15:41.700984
- Title: Off-Policy Risk Assessment in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるオフポリシーリスク評価
- Authors: Audrey Huang, Liu Leqi, Zachary Chase Lipton, Kamyar Azizzadenesheli
- Abstract要約: 我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。
この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。
オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
- 参考スコア(独自算出の注目度): 15.225153671736201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Addressing such diverse ends as safety alignment with human preferences, and
the efficiency of learning, a growing line of reinforcement learning research
focuses on risk functionals that depend on the entire distribution of returns.
Recent work on \emph{off-policy risk assessment} (OPRA) for contextual bandits
introduced consistent estimators for the target policy's CDF of returns along
with finite sample guarantees that extend to (and hold simultaneously over) all
risk. In this paper, we lift OPRA to Markov decision processes (MDPs), where
importance sampling (IS) CDF estimators suffer high variance on longer
trajectories due to small effective sample size. To mitigate these problems, we
incorporate model-based estimation to develop the first doubly robust (DR)
estimator for the CDF of returns in MDPs. This estimator enjoys significantly
less variance and, when the model is well specified, achieves the Cramer-Rao
variance lower bound. Moreover, for many risk functionals, the downstream
estimates enjoy both lower bias and lower variance. Additionally, we derive the
first minimax lower bounds for off-policy CDF and risk estimation, which match
our error bounds up to a constant factor. Finally, we demonstrate the precision
of our DR CDF estimates experimentally on several different environments.
- Abstract(参考訳): 人間の嗜好に合わせた安全性の整合性や学習効率といった多様な目的に対処するため、強化学習研究のラインは、リターンの分布全体に依存するリスク機能に焦点を当てている。
文脈的盗賊に対する 'emph{off-policy risk Assessment} (OPRA) に関する最近の研究は、全てのリスクに拡張(および同時に保持)する有限サンプル保証とともに、ターゲットポリシーのリターンのCDFに対する一貫した推定器を導入した。
本稿では, OPRAをマルコフ決定過程(MDP)に引き上げ, 重要サンプリング(IS) CDF推定器は, 有効サンプルサイズが小さいため, 長い軌道上で高いばらつきを被る。
これらの問題を緩和するために、モデルに基づく推定を取り入れ、MDPにおけるリターンのCDFのための最初の2倍頑健(DR)推定器を開発する。
この推定器は、ばらつきがかなり少なく、モデルが適切に指定されると、クラー・ラオ分散を下界で達成する。
さらに、多くのリスク関数に対して、下流の推定値は低いバイアスと低い分散の両方を享受する。
さらに、オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出し、この誤差は定数係数に一致する。
最後に,複数の異なる環境でDR CDF推定値の精度を実験的に実証した。
関連論文リスト
- Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。
経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。
検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Risk-Averse MDPs under Reward Ambiguity [9.929659318167731]
本稿では,リスクと報酬のあいまいさの下で,マルコフ決定過程(MDP)の分布的に堅牢なリターンリスクモデルを提案する。
スケーラブルな一階述語アルゴリズムは大規模問題の解法として設計されている。
論文 参考訳(メタデータ) (2023-01-03T11:06:30Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Off-Policy Risk Assessment in Contextual Bandits [32.97618081988295]
多くの共通函数を推定するLipschitzリスク関数のクラスを紹介します。
リプシッツリスク汎関数では、オフポリシー推定の誤差は、報酬の累積分布関数(cdf)のオフポリシー推定の誤差によって制限される。
我々は,対象政策の報酬のCDFを推定し,リスクのプラグイン推定を生成するアルゴリズムであるOff-Policy Risk Assessment (OPRA)を提案する。
論文 参考訳(メタデータ) (2021-04-18T23:27:40Z) - Bias-Corrected Peaks-Over-Threshold Estimation of the CVaR [2.552459629685159]
cvar(conditional value-at-risk)は、機械学習、金融、保険、エネルギーなどの分野で有用なリスク尺度である。
極めて極端なリスクを測定する場合,試料平均値のCVaR推定法はうまく動作しない。
この問題を緩和するために、CVaRはVaRよりも低い閾値で外挿することで推定することができる。
論文 参考訳(メタデータ) (2021-03-08T20:29:06Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。