論文の概要: Conditionally Risk-Averse Contextual Bandits
- arxiv url: http://arxiv.org/abs/2210.13573v2
- Date: Sat, 8 Jul 2023 15:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:14:45.652274
- Title: Conditionally Risk-Averse Contextual Bandits
- Title(参考訳): 条件付きリスク-逆コンテキスト帯域
- Authors: M\'onika Farsang and Paul Mineiro and Wangda Zhang
- Abstract要約: 平均ケース統計保証付きコンテキスト帯域は、リスク逆の状況では不十分である。
提案手法は,オンライン後悔の保証を施した最初のリスク-逆文脈的帯域幅アルゴリズムである。
最悪の結果を避けるべきさまざまなシナリオから実験を行う。
- 参考スコア(独自算出の注目度): 8.894935073145252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandits with average-case statistical guarantees are inadequate in
risk-averse situations because they might trade off degraded worst-case
behaviour for better average performance. Designing a risk-averse contextual
bandit is challenging because exploration is necessary but risk-aversion is
sensitive to the entire distribution of rewards; nonetheless we exhibit the
first risk-averse contextual bandit algorithm with an online regret guarantee.
We conduct experiments from diverse scenarios where worst-case outcomes should
be avoided, from dynamic pricing, inventory management, and self-tuning
software; including a production exascale data processing system.
- Abstract(参考訳): 平均ケースの統計的保証を持つ文脈的帯域幅は、劣化した最悪のケースの振る舞いをトレードオフして平均パフォーマンスを向上させるため、リスク回避の状況では不十分である。
リスク・アバース・コンテキスト・バンディットを設計することは、探索が不可欠であるが、リスク・アバース・バンディットは報酬の分布全体に敏感であるため困難である。
動的な価格設定、在庫管理、セルフチューニングソフトウェアなど、最悪の結果を避けるべきさまざまなシナリオで実験を行い、本番のエクサスケールデータ処理システムを含む。
関連論文リスト
- Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。
経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。
検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - SafeAR: Safe Algorithmic Recourse by Risk-Aware Policies [2.291948092032746]
本稿では,コストの変動を考慮したレコメンデーションポリシーの計算手法を提案する。
我々は,既存のデシダラタが高コストのリスクを捕捉できないことを示す。
論文 参考訳(メタデータ) (2023-08-23T18:12:11Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Near-Optimal MNL Bandits Under Risk Criteria [13.251377915797674]
リスク基準の下で,従来のマルチアームバンディット問題の変種であるMNLバンディットについて検討した。
リスク基準は広く, 既知条件付きリスク, シャープ比, エントロピーリスクに限られるが, ほぼ最適の後悔を被ることを示すアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-09-26T03:24:40Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。