論文の概要: A Survey of Risk-Aware Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2205.05843v1
- Date: Thu, 12 May 2022 02:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:04:45.520090
- Title: A Survey of Risk-Aware Multi-Armed Bandits
- Title(参考訳): リスク対応型マルチアーマッドバンドの検討
- Authors: Vincent Y. F. Tan and Prashanth L.A. and Krishna Jagannathan
- Abstract要約: 我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
- 参考スコア(独自算出の注目度): 84.67376599822569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In several applications such as clinical trials and financial portfolio
optimization, the expected value (or the average reward) does not
satisfactorily capture the merits of a drug or a portfolio. In such
applications, risk plays a crucial role, and a risk-aware performance measure
is preferable, so as to capture losses in the case of adverse events. This
survey aims to consolidate and summarise the existing research on risk
measures, specifically in the context of multi-armed bandits. We review various
risk measures of interest, and comment on their properties. Next, we review
existing concentration inequalities for various risk measures. Then, we proceed
to defining risk-aware bandit problems, We consider algorithms for the regret
minimization setting, where the exploration-exploitation trade-off manifests,
as well as the best-arm identification setting, which is a pure exploration
problem -- both in the context of risk-sensitive measures. We conclude by
commenting on persisting challenges and fertile areas for future research.
- Abstract(参考訳): 臨床試験や金融ポートフォリオ最適化などのいくつかの応用では、期待値(または平均報酬)は、薬品やポートフォリオのメリットを十分に捉えていない。
このようなアプリケーションでは、リスクが重要な役割を担い、有害事象が発生した場合の損失を捉えるために、リスク対応のパフォーマンス指標が望ましい。
本調査は,既存のリスク対策研究,特に多武装バンディットの文脈を統合・要約することを目的としている。
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
次に,種々のリスク対策における既存の濃度不等式について検討する。
次に, リスクを意識したバンディット問題の定義に着手し, リスクに敏感な対策の文脈において, 探索・爆発のトレードオフが現れるような後悔最小化設定のアルゴリズムと, 純粋な探索問題である最善のアーム識別設定を考察する。
今後の研究の課題と肥大化についてコメントし、結論づける。
関連論文リスト
- Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Sample-Based Bounds for Coherent Risk Measures: Applications to Policy
Synthesis and Verification [32.9142708692264]
本稿では,リスク認識の検証と政策合成に関するいくつかの問題に対処することを目的とする。
まず,確率変数分布のサブセットを評価するサンプルベース手法を提案する。
第二に、決定空間の大部分を上回る問題に対する解を決定するロボットベースの手法を開発する。
論文 参考訳(メタデータ) (2022-04-21T01:06:10Z) - Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T03:49:04Z) - Two steps to risk sensitivity [4.974890682815778]
条件付きバリュー・アット・リスク(CVaR)は、人間と動物の計画のモデル化のためのリスク尺度である。
CVaRに対する従来の分布的アプローチを逐次的に導入し、人間の意思決定者の選択を再分析する。
次に,リスク感度,すなわち時間的整合性,さらに重要な特性について考察し,CVaRの代替案を示す。
論文 参考訳(メタデータ) (2021-11-12T16:27:47Z) - Detecting and Mitigating Test-time Failure Risks via Model-agnostic
Uncertainty Learning [30.86992077157326]
本稿では,すでに訓練済みのブラックボックス分類モデルの失敗リスクと予測的不確かさを推定するための,ポストホックメタラーナーであるリスクアドバイザを紹介する。
リスクアドバイザは、リスクスコアの提供に加えて、不確実性見積を、アレタリックおよびエピステマティックな不確実性コンポーネントに分解する。
ブラックボックス分類モデルおよび実世界および合成データセットのさまざまなファミリーの実験は、リスクアドバイザーがデプロイメント時の障害リスクを確実に予測していることを示している。
論文 参考訳(メタデータ) (2021-09-09T17:23:31Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Automatic Risk Adaptation in Distributional Reinforcement Learning [26.113528145137497]
実践的応用における強化学習(RL)エージェントの使用は、最適以下の結果を考慮する必要がある。
これは特に安全クリティカルな環境において重要であり、エラーは高いコストや損害をもたらす可能性がある。
リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。
論文 参考訳(メタデータ) (2021-06-11T11:31:04Z) - Thompson Sampling for Gaussian Entropic Risk Bandits [0.0]
リスクは、その普遍的に合意された定義がないため、基本的な報酬の最大化目標を複雑にします。
我々は,このリスク尺度の下でのトンプソンサンプリングに基づくアルゴリズムの性能を,エントロピーリスク尺度 (er) で検討し,検討する。
論文 参考訳(メタデータ) (2021-05-14T17:01:02Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [91.44514047017954]
平均報酬設定下でのリスクに敏感な深層強化学習を,分散リスク基準を用いて初めて検討する。
ポリシ,ラグランジュ乗算器,フェンチェル双変数を反復的かつ効率的に更新するアクタークリティカルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。