論文の概要: Near-Optimal MNL Bandits Under Risk Criteria
- arxiv url: http://arxiv.org/abs/2009.12511v3
- Date: Tue, 16 Mar 2021 02:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:28:25.769958
- Title: Near-Optimal MNL Bandits Under Risk Criteria
- Title(参考訳): リスク基準下での準最適MNLバンド
- Authors: Guangyu Xi, Chao Tao and Yuan Zhou
- Abstract要約: リスク基準の下で,従来のマルチアームバンディット問題の変種であるMNLバンディットについて検討した。
リスク基準は広く, 既知条件付きリスク, シャープ比, エントロピーリスクに限られるが, ほぼ最適の後悔を被ることを示すアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 13.251377915797674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study MNL bandits, which is a variant of the traditional multi-armed
bandit problem, under risk criteria. Unlike the ordinary expected revenue, risk
criteria are more general goals widely used in industries and bussiness. We
design algorithms for a broad class of risk criteria, including but not limited
to the well-known conditional value-at-risk, Sharpe ratio and entropy risk, and
prove that they suffer a near-optimal regret. As a complement, we also conduct
experiments with both synthetic and real data to show the empirical performance
of our proposed algorithms.
- Abstract(参考訳): リスク基準の下で,従来のマルチアームバンディット問題の変種であるMNLバンディットについて検討した。
通常の予想収益とは異なり、リスク基準は産業やバスで広く使われる一般的な目標である。
リスク基準は広く, 既知条件付きリスク, シャープ比, エントロピーリスクに限られるが, ほぼ最適の後悔を被ることを示すアルゴリズムを設計する。
補足として,提案アルゴリズムの実証性能を示すために,合成データと実データの両方を用いて実験を行う。
関連論文リスト
- A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - A Distribution Optimization Framework for Confidence Bounds of Risk
Measures [23.46659319363579]
本稿では,従来の手法と比較して,各種リスク対策の信頼性境界を大幅に改善する分布最適化フレームワークを提案する。
本フレームワークは, エントロピーリスク尺度, CVaR, スペクトルリスク尺度, 歪みリスク尺度, 等価確実性, ランク依存予測ユーティリティなどの一般的なリスク尺度を含む。
論文 参考訳(メタデータ) (2023-06-12T12:13:06Z) - Conditionally Risk-Averse Contextual Bandits [8.894935073145252]
平均ケース統計保証付きコンテキスト帯域は、リスク逆の状況では不十分である。
提案手法は,オンライン後悔の保証を施した最初のリスク-逆文脈的帯域幅アルゴリズムである。
最悪の結果を避けるべきさまざまなシナリオから実験を行う。
論文 参考訳(メタデータ) (2022-10-24T19:49:37Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。