論文の概要: A Non-asymptotic Approach to Best-Arm Identification for Gaussian
Bandits
- arxiv url: http://arxiv.org/abs/2105.12978v1
- Date: Thu, 27 May 2021 07:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:06:39.462847
- Title: A Non-asymptotic Approach to Best-Arm Identification for Gaussian
Bandits
- Title(参考訳): ガウス帯域のベストアーム同定に対する非漸近的アプローチ
- Authors: Antoine Barrier (UMPA-ENSL, LMO), Aur\'elien Garivier (UMPA-ENSL),
Tom\'a\v{s} Koc\'ak (UMPA-ENSL)
- Abstract要約: 本稿では,ガウス変数の信頼度を一定に保ち,有界な手段と単位分散を持つベストアーム識別のための新しい戦略を提案する。
探索バイアスサンプリング(Exploration-Biased Sampling)と呼ばれるこの戦略は、必ずしも最適ではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new strategy for best-arm identification with fixed confidence
of Gaussian variables with bounded means and unit variance. This strategy
called Exploration-Biased Sampling is not only asymptotically optimal: we also
prove non-asymptotic bounds occurring with high probability. To the best of our
knowledge, this is the first strategy with such guarantees. But the main
advantage over other algorithms like Track-and-Stop is an improved behavior
regarding exploration: Exploration-Biased Sampling is slightly biased in favor
of exploration in a subtle but natural way that makes it more stable and
interpretable. These improvements are allowed by a new analysis of the sample
complexity optimization problem, which yields a faster numerical resolution
scheme and several quantitative regularity results that we believe of high
independent interest.
- Abstract(参考訳): 有界な手段と単位分散を持つガウス変数の信頼度を固定した最良アーム識別のための新しい戦略を提案する。
探索バイアスサンプリングと呼ばれるこの戦略は漸近的に最適であるだけでなく、高い確率で生じる非漸近境界も証明する。
私たちの知る限りでは、このような保証を持つ最初の戦略です。
探索バイアスサンプリング(Exploration-Biased Smpling)は、微妙だが自然な方法で探索を好んでおり、より安定し、解釈しやすくしています。
これらの改善は、より高速な数値解法と高利害関係にあるいくつかの定量正則性結果をもたらすサンプル複雑性最適化問題の新たな解析によって可能となる。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse
Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances [27.122181278234617]
両腕のガウスバンドにおける固定予算ベストアーム識別問題について検討する。
本稿では,アームドローの目標配置確率を推定し,ランダム化サンプリング(RS)を用いたサンプリングルールを含む戦略を提案する。
提案手法は,サンプルサイズが無限大になり,両腕間のギャップがゼロとなる場合に,不可視的に最適であることを示す。
論文 参考訳(メタデータ) (2022-01-12T13:38:33Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。