論文の概要: Non-Asymptotic Analysis of a UCB-based Top Two Algorithm
- arxiv url: http://arxiv.org/abs/2210.05431v1
- Date: Tue, 11 Oct 2022 13:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:37:20.399971
- Title: Non-Asymptotic Analysis of a UCB-based Top Two Algorithm
- Title(参考訳): UCBに基づくトップ2アルゴリズムの非漸近解析
- Authors: Marc Jourdan, R\'emy Degenne
- Abstract要約: バンディット識別のためのトップ2サンプリングルールは、2つの候補アームの中から次のアームを選択する方法である。
提案した UCB ベースの Top Two アルゴリズムは,非漸近的保証と競合的経験的性能を同時に享受する。
- 参考スコア(独自算出の注目度): 0.8122270502556374
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A Top Two sampling rule for bandit identification is a method which selects
the next arm to sample from among two candidate arms, a leader and a
challenger. Due to their simplicity and good empirical performance, they have
received increased attention in recent years. For fixed-confidence best arm
identification, theoretical guarantees for Top Two methods have only been
obtained in the asymptotic regime, when the error level vanishes. We derive the
first non-asymptotic upper bound on the expected sample complexity of a Top Two
algorithm holding for any error level. Our analysis highlights sufficient
properties for a regret minimization algorithm to be used as leader. They are
satisfied by the UCB algorithm and our proposed UCB-based Top Two algorithm
enjoys simultaneously non-asymptotic guarantees and competitive empirical
performance.
- Abstract(参考訳): バンディット識別のためのトップ2サンプリングルールは、2つの候補アーム、リーダー、挑戦者の中から次のアームを選択する方法である。
その単純さと優れた経験的パフォーマンスにより、近年は注目を集めている。
固定信頼の最良の腕の識別では、上位2つの方法の理論的保証は、エラーレベルが失われるときのみ漸近的に得られる。
任意の誤差レベルを保持できる上位2アルゴリズムのサンプル複雑性に関する最初の非漸近上限を導出する。
本分析では,後悔最小化アルゴリズムをリーダとして使用するのに十分な特性を強調する。
UCBアルゴリズムに満足しており、提案したUCBベースのTop Twoアルゴリズムは、漸近的でない保証と競合的な経験的性能を同時に享受する。
関連論文リスト
- Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - On Universally Optimal Algorithms for A/B Testing [49.429419538826444]
ベルヌーイ報奨を伴う多腕バンディットにおける固定予算によるベストアーム識別の問題について検討する。
A/Bテスト問題としても知られる2つのアームの問題に対して,各アームを等しくサンプリングするアルゴリズムが存在しないことを証明した。
論文 参考訳(メタデータ) (2023-08-23T08:38:53Z) - SPRT-based Efficient Best Arm Identification in Stochastic Bandits [31.359578768463752]
本稿では,固定信頼度設定におけるマルチアームバンディットの腕識別問題について検討する。
バンドイットの指数族に対する既存のアルゴリズムは計算上の課題に直面している。
逐次テストに有効であることが知られている確率比ベースのテストを採用するフレームワークが提案されている。
論文 参考訳(メタデータ) (2022-07-22T15:54:53Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Double Explore-then-Commit: Asymptotic Optimality and Beyond [101.77632893858063]
ガウス級報酬を用いたマルチアームバンディット問題について検討する。
本研究では,探索-then-commit (ETC) アルゴリズムの変種により,マルチアームバンディット問題に対する最適性が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T08:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。