論文の概要: A Survey of Risk-Aware Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2205.05843v1
- Date: Thu, 12 May 2022 02:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:04:45.520090
- Title: A Survey of Risk-Aware Multi-Armed Bandits
- Title(参考訳): リスク対応型マルチアーマッドバンドの検討
- Authors: Vincent Y. F. Tan and Prashanth L.A. and Krishna Jagannathan
- Abstract要約: 我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
- 参考スコア(独自算出の注目度): 84.67376599822569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In several applications such as clinical trials and financial portfolio
optimization, the expected value (or the average reward) does not
satisfactorily capture the merits of a drug or a portfolio. In such
applications, risk plays a crucial role, and a risk-aware performance measure
is preferable, so as to capture losses in the case of adverse events. This
survey aims to consolidate and summarise the existing research on risk
measures, specifically in the context of multi-armed bandits. We review various
risk measures of interest, and comment on their properties. Next, we review
existing concentration inequalities for various risk measures. Then, we proceed
to defining risk-aware bandit problems, We consider algorithms for the regret
minimization setting, where the exploration-exploitation trade-off manifests,
as well as the best-arm identification setting, which is a pure exploration
problem -- both in the context of risk-sensitive measures. We conclude by
commenting on persisting challenges and fertile areas for future research.
- Abstract(参考訳): 臨床試験や金融ポートフォリオ最適化などのいくつかの応用では、期待値(または平均報酬)は、薬品やポートフォリオのメリットを十分に捉えていない。
このようなアプリケーションでは、リスクが重要な役割を担い、有害事象が発生した場合の損失を捉えるために、リスク対応のパフォーマンス指標が望ましい。
本調査は,既存のリスク対策研究,特に多武装バンディットの文脈を統合・要約することを目的としている。
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
次に,種々のリスク対策における既存の濃度不等式について検討する。
次に, リスクを意識したバンディット問題の定義に着手し, リスクに敏感な対策の文脈において, 探索・爆発のトレードオフが現れるような後悔最小化設定のアルゴリズムと, 純粋な探索問題である最善のアーム識別設定を考察する。
今後の研究の課題と肥大化についてコメントし、結論づける。
関連論文リスト
- Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - SafeAR: Safe Algorithmic Recourse by Risk-Aware Policies [2.291948092032746]
本稿では,コストの変動を考慮したレコメンデーションポリシーの計算手法を提案する。
我々は,既存のデシダラタが高コストのリスクを捕捉できないことを示す。
論文 参考訳(メタデータ) (2023-08-23T18:12:11Z) - Eliciting Risk Aversion with Inverse Reinforcement Learning via
Interactive Questioning [0.0]
本稿では,対話型質問を用いたエージェントのリスク回避のための新しいフレームワークを提案する。
エージェントのリスク回避は、質問の数が無限大になる傾向があり、質問がランダムに設計されるため、特定できることを示す。
我々のフレームワークはロボアドバイスに重要な応用があり、エージェントのリスク嗜好を特定するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2023-08-16T15:17:57Z) - Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz
Dynamic Risk Measures [23.46659319363579]
EmphLipschitz動的リスク尺度に適用した2つのモデルベースアルゴリズムを提案する。
特に、私たちの上限は、アクションの数とエピソード数に最適な依存を示す。
論文 参考訳(メタデータ) (2023-06-04T16:24:19Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - Risk Perspective Exploration in Distributional Reinforcement Learning [10.441880303257468]
リスクレベルでのリスクレベルと楽観的な振る舞いを探索するリスクスケジューリング手法を提案する。
マルチエージェント環境でのリスクスケジューリングを用いたDMIXアルゴリズムの性能向上を示す。
論文 参考訳(メタデータ) (2022-06-28T17:37:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。