論文の概要: Risk-Averse MDPs under Reward Ambiguity
- arxiv url: http://arxiv.org/abs/2301.01045v2
- Date: Wed, 4 Jan 2023 02:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:53:35.737681
- Title: Risk-Averse MDPs under Reward Ambiguity
- Title(参考訳): 逆境下におけるリスク・アバースMDP
- Authors: Haolin Ruan, Zhi Chen and Chin Pang Ho
- Abstract要約: 本稿では,リスクと報酬のあいまいさの下で,マルコフ決定過程(MDP)の分布的に堅牢なリターンリスクモデルを提案する。
スケーラブルな一階述語アルゴリズムは大規模問題の解法として設計されている。
- 参考スコア(独自算出の注目度): 9.929659318167731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a distributionally robust return-risk model for Markov decision
processes (MDPs) under risk and reward ambiguity. The proposed model optimizes
the weighted average of mean and percentile performances, and it covers the
distributionally robust MDPs and the distributionally robust chance-constrained
MDPs (both under reward ambiguity) as special cases. By considering that the
unknown reward distribution lies in a Wasserstein ambiguity set, we derive the
tractable reformulation for our model. In particular, we show that that the
return-risk model can also account for risk from uncertain transition kernel
when one only seeks deterministic policies, and that a distributionally robust
MDP under the percentile criterion can be reformulated as its nominal
counterpart at an adjusted risk level. A scalable first-order algorithm is
designed to solve large-scale problems, and we demonstrate the advantages of
our proposed model and algorithm through numerical experiments.
- Abstract(参考訳): リスクと報酬の曖昧さを考慮したマルコフ決定過程(mdps)に対する分布的ロバストな回帰リスクモデルを提案する。
提案モデルでは, 平均およびパーセンタイル性能の重み付け平均を最適化し, 分散的に堅牢なMDPと, 分散的に頑健なMDP(どちらも報酬あいまいさ下で)を特殊ケースとして扱う。
未知の報酬分布がwassersteinの曖昧性集合にあることを考慮し、モデルに対する扱いやすい再構成を導出する。
特に,回帰リスクモデルは,決定論的方針のみを求める場合,不確定な遷移カーネルからのリスクも考慮でき,パーセンタイル基準の下では分布的に頑健なmdpを,その名目上のリスクレベルで再編成できることを示す。
スケーラブルな一階アルゴリズムは,大規模問題を解くために設計され,数値実験により提案するモデルとアルゴリズムの利点を実証する。
関連論文リスト
- Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。
経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。
検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Decision-Dependent Distributionally Robust Markov Decision Process
Method in Dynamic Epidemic Control [4.644416582073023]
Susceptible-Exposed-Infectious-Recovered (SEIR) モデルは感染症の拡散を表すために広く用いられている。
本稿では,動的流行制御問題に対処するために,分布ロバストマルコフ決定プロセス(DRMDP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:19:04Z) - Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity [7.57543767554282]
本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度と若干異なる方法でリスクを評価する。
両問題に対してポリシー勾配定理を導出し、厳密なポリシー勾配法の勾配支配と大域収束を証明した。
また、サンプルベースのオフライン学習アルゴリズム、すなわちロバスト適応Z反復(RFZI)を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:51:25Z) - On the Variance, Admissibility, and Stability of Empirical Risk
Minimization [80.26309576810844]
2乗損失を持つ経験的リスク最小化(ERM)は、極小最適誤差率に達する可能性がある。
軽微な仮定では、ERMの準最適性はばらつきよりも大きなバイアスによるものでなければならない。
また、我々の推定は、非ドンスカー類に対するCaponnetto と Rakhlin (2006) の主な結果を補完する ERM の安定性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T15:25:48Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Risk-aware Stochastic Shortest Path [0.0]
マルコフ決定過程(MDP)における最短経路(SSP)に対するリスク認識制御の問題点について検討する。
本稿では,確立されたリスク尺度である条件付きリスク(CVaR)を最適化する。
論文 参考訳(メタデータ) (2022-03-03T10:59:54Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。