論文の概要: Conditionally Risk-Averse Contextual Bandits
- arxiv url: http://arxiv.org/abs/2210.13573v1
- Date: Mon, 24 Oct 2022 19:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:46:35.124705
- Title: Conditionally Risk-Averse Contextual Bandits
- Title(参考訳): 条件付きリスク-逆コンテキスト帯域
- Authors: M\'onika Farsang and Paul Mineiro and Wangda Zhang
- Abstract要約: オンライン回帰と期待損失の低減は解析的に抽出可能であり、計算上有用であり、実証的に有効であることを示す。
我々は、動的価格設定、在庫管理、自動チューニングソフトウェアにおける様々なシナリオから、正確な後悔の保証と実験を述べます。
- 参考スコア(独自算出の注目度): 8.894935073145252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We desire to apply contextual bandits to scenarios where average-case
statistical guarantees are inadequate. Happily, we discover the composition of
reduction to online regression and expectile loss is analytically tractable,
computationally convenient, and empirically effective. The result is the first
risk-averse contextual bandit algorithm with an online regret guarantee. We
state our precise regret guarantee and conduct experiments from diverse
scenarios in dynamic pricing, inventory management, and self-tuning software;
including results from a production exascale cloud data processing system.
- Abstract(参考訳): 平均ケース統計保証が不十分なシナリオに、文脈的帯域幅を適用したいと考えています。
幸いなことに、オンライン回帰への還元と期待損失の合成は分析的に抽出可能であり、計算上便利であり、実証的に有効である。
その結果、オンラインの後悔を保証した最初のリスク回避コンテキストバンディットアルゴリズムとなる。
我々は,動的価格設定,在庫管理,セルフチューニングソフトウェアといったさまざまなシナリオから,実運用用クラウドデータ処理システムによる結果を含む,正確な後悔の保証と実験を行う。
関連論文リスト
- Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。
経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。
検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - SafeAR: Safe Algorithmic Recourse by Risk-Aware Policies [2.291948092032746]
本稿では,コストの変動を考慮したレコメンデーションポリシーの計算手法を提案する。
我々は,既存のデシダラタが高コストのリスクを捕捉できないことを示す。
論文 参考訳(メタデータ) (2023-08-23T18:12:11Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Near-Optimal MNL Bandits Under Risk Criteria [13.251377915797674]
リスク基準の下で,従来のマルチアームバンディット問題の変種であるMNLバンディットについて検討した。
リスク基準は広く, 既知条件付きリスク, シャープ比, エントロピーリスクに限られるが, ほぼ最適の後悔を被ることを示すアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-09-26T03:24:40Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。