論文の概要: A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2206.02969v6
- Date: Mon, 22 Jul 2024 14:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 06:25:22.871309
- Title: A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits
- Title(参考訳): 確率帯域に対する重機リスクに対する安全性を考慮した簡易かつ最適政策設計
- Authors: David Simchi-Levi, Zeyu Zheng, Feng Zhu,
- Abstract要約: マルチアームバンディット問題について検討し,期待された後悔に対する最悪のケース最適性と,後悔の分布に対する軽微なリスクの両方を享受する新しいポリシーを設計する。
経営的な観点から、我々の新しい政策設計は、より良い尾の分布をもたらし、祝福された政策よりも好まれることがわかった。
- 参考スコア(独自算出の注目度): 27.058087400790555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the stochastic multi-armed bandit problem and design new policies that enjoy both worst-case optimality for expected regret and light-tailed risk for regret distribution. Specifically, our policy design (i) enjoys the worst-case optimality for the expected regret at order $O(\sqrt{KT\ln T})$ and (ii) has the worst-case tail probability of incurring a regret larger than any $x>0$ being upper bounded by $\exp(-\Omega(x/\sqrt{KT}))$, a rate that we prove to be best achievable with respect to $T$ for all worst-case optimal policies. Our proposed policy achieves a delicate balance between doing more exploration at the beginning of the time horizon and doing more exploitation when approaching the end, compared to standard confidence-bound-based policies. We also enhance the policy design to accommodate the "any-time" setting where $T$ is unknown a priori, and prove equivalently desired policy performances as compared to the "fixed-time" setting with known $T$. Numerical experiments are conducted to illustrate the theoretical findings. We find that from a managerial perspective, our new policy design yields better tail distributions and is preferable than celebrated policies especially when (i) there is a risk of under-estimating the volatility profile, or (ii) there is a challenge of tuning policy hyper-parameters. We conclude by extending our proposed policy design to the stochastic linear bandit setting that leads to both worst-case optimality in terms of expected regret and light-tailed risk on the regret distribution.
- Abstract(参考訳): 本稿では, 確率的マルチアームバンディット問題について検討し, 期待された後悔に対する最悪のケース最適性と, 後悔分布に対する軽微なリスクの両方を享受する新しいポリシーを考案する。
特に 政策デザインは
(i)$O(\sqrt{KT\ln T})$, andで予想される後悔に対する最悪のケース最適性を楽しむ
(ii)$\exp(-\Omega(x/\sqrt{KT})$で上限値の任意の$x>0$よりも大きい後悔を引き起こす最悪の場合のテール確率を持つ。
提案した政策は, 標準信頼度に基づく政策と比較して, 時間軸の開始時にさらなる探索を行うことと, 終了に近づく際にさらなる搾取を行うこととの微妙なバランスを達成している。
また、ポリシー設計を強化して、$T$が未知の"any-time"設定をプライオリに適合させ、既知の$T$の"fixed-time"設定と同等に望ましいポリシパフォーマンスを証明します。
理論的知見を説明するため, 数値実験を行った。
経営的な見地からすると、新しい政策設計はより良い尾の分布をもたらし、特に祝いの政策よりも好まれることがわかった。
一 ボラティリティプロファイルを過小評価するリスクがあること。
(II)政策ハイパーパラメータのチューニングが課題である。
我々は,提案した政策設計を,期待された後悔と後悔分布に対する軽微なリスクの両面において最悪のケース最適性をもたらす確率線形バンディット設定に拡張することで結論付ける。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Regret Distribution in Stochastic Bandits: Optimal Trade-off between
Expectation and Tail Risk [22.843623578307707]
我々は,多武装バンディット問題における後悔分布の予測とテールリスクのトレードオフについて検討した。
予測された後悔の順序が、最悪のケースとインスタンスに依存したシナリオの両方において、後悔の尾確率の減衰率にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-04-10T01:00:18Z) - Best of Both Worlds Policy Optimization [33.13041034490332]
本稿では,正則化器,探索ボーナス,学習率を適切に設計することにより,損失が相反する場合には,より好意的なポリログ$(T)=後悔が得られることを示す。
政策最適化のために、ギャップ依存のポリログ$(T)$後悔境界が示されるのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-18T19:46:11Z) - Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits [81.60136088841948]
本稿では,時間軸における後悔を最小限に抑えるアルゴリズムを提案する。
提案アルゴリズムは,レコメンデーションシステムや交通機関などの分野に適用可能である。
論文 参考訳(メタデータ) (2023-01-31T03:49:00Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。