論文の概要: A Distribution Optimization Framework for Confidence Bounds of Risk
Measures
- arxiv url: http://arxiv.org/abs/2306.07059v1
- Date: Mon, 12 Jun 2023 12:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:50:01.172858
- Title: A Distribution Optimization Framework for Confidence Bounds of Risk
Measures
- Title(参考訳): リスク測度の信頼度境界に対する分布最適化フレームワーク
- Authors: Hao Liang, Zhi-quan Luo
- Abstract要約: 本稿では,従来の手法と比較して,各種リスク対策の信頼性境界を大幅に改善する分布最適化フレームワークを提案する。
本フレームワークは, エントロピーリスク尺度, CVaR, スペクトルリスク尺度, 歪みリスク尺度, 等価確実性, ランク依存予測ユーティリティなどの一般的なリスク尺度を含む。
- 参考スコア(独自算出の注目度): 23.46659319363579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a distribution optimization framework that significantly improves
confidence bounds for various risk measures compared to previous methods. Our
framework encompasses popular risk measures such as the entropic risk measure,
conditional value at risk (CVaR), spectral risk measure, distortion risk
measure, equivalent certainty, and rank-dependent expected utility, which are
well established in risk-sensitive decision-making literature. To achieve this,
we introduce two estimation schemes based on concentration bounds derived from
the empirical distribution, specifically using either the Wasserstein distance
or the supremum distance. Unlike traditional approaches that add or subtract a
confidence radius from the empirical risk measures, our proposed schemes
evaluate a specific transformation of the empirical distribution based on the
distance. Consequently, our confidence bounds consistently yield tighter
results compared to previous methods. We further verify the efficacy of the
proposed framework by providing tighter problem-dependent regret bound for the
CVaR bandit.
- Abstract(参考訳): 本稿では,従来の手法と比較して,各種リスク対策の信頼性境界を大幅に改善する分布最適化フレームワークを提案する。
本枠組みは, リスクセンシティブな意思決定文献において確立されている, エントロピーリスク尺度, CVaR, スペクトルリスク尺度, 歪みリスク尺度, 等価確実性, ランク依存型予測ユーティリティなどの一般的なリスク尺度を包含する。
そこで本研究では, 実験分布から導出される濃度境界に基づく2つの推定手法, 特にワッサーシュタイン距離と上限距離について紹介する。
経験的リスク尺度から信頼度半径を付加または減算する従来のアプローチとは異なり,提案手法は距離に基づく経験的分布の特定の変換を評価する。
その結果、我々の信頼境界は従来の方法よりも厳密な結果が得られる。
さらに,CVaRバンドイットに対してより厳密な問題依存的後悔境界を提供することにより,提案手法の有効性を検証した。
関連論文リスト
- Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。
経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。
検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Predictive Uncertainty Quantification via Risk Decompositions for Strictly Proper Scoring Rules [7.0549244915538765]
予測モデリングの不確かさは、しばしばアドホック法に依存する。
本稿では,統計的リスクを通じて不確実性を理解するための理論的アプローチを紹介する。
我々は、ポイントワイズリスクをベイズリスクと過剰リスクに分割する方法を示す。
論文 参考訳(メタデータ) (2024-02-16T14:40:22Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Pitfall of Optimism: Distributional Reinforcement Learning by
Randomizing Risk Criterion [9.35556128467037]
本稿では,リスクの一方的な傾向を避けるために,リスク基準のランダム化によって行動を選択する新しい分散強化学習アルゴリズムを提案する。
理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。
論文 参考訳(メタデータ) (2023-10-25T10:53:04Z) - Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。
我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。
我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文 参考訳(メタデータ) (2023-08-30T08:46:46Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。