論文の概要: Non-Asymptotic Analysis of a UCB-based Top Two Algorithm
- arxiv url: http://arxiv.org/abs/2210.05431v3
- Date: Mon, 6 Nov 2023 22:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 20:10:07.977441
- Title: Non-Asymptotic Analysis of a UCB-based Top Two Algorithm
- Title(参考訳): UCBに基づくトップ2アルゴリズムの非漸近解析
- Authors: Marc Jourdan, R\'emy Degenne
- Abstract要約: バンディット識別のためのトップ2サンプリングルールは、2つの候補アームの中から次のアームを選択する方法である。
提案するUCBベースのトップ2は,非漸近的保証と競合経験性能を同時に享受する。
- 参考スコア(独自算出の注目度): 4.18804572788063
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A Top Two sampling rule for bandit identification is a method which selects
the next arm to sample from among two candidate arms, a leader and a
challenger. Due to their simplicity and good empirical performance, they have
received increased attention in recent years. However, for fixed-confidence
best arm identification, theoretical guarantees for Top Two methods have only
been obtained in the asymptotic regime, when the error level vanishes. In this
paper, we derive the first non-asymptotic upper bound on the expected sample
complexity of a Top Two algorithm, which holds for any error level. Our
analysis highlights sufficient properties for a regret minimization algorithm
to be used as leader. These properties are satisfied by the UCB algorithm, and
our proposed UCB-based Top Two algorithm simultaneously enjoys non-asymptotic
guarantees and competitive empirical performance.
- Abstract(参考訳): バンディット識別のためのトップ2サンプリングルールは、2つの候補アーム、リーダー、挑戦者の中から次のアームを選択する方法である。
その単純さと優れた経験的パフォーマンスにより、近年は注目を集めている。
しかし、固定信頼最善腕識別では、最上位2つの方法に対する理論的保証は、誤差レベルが失われるときのみ漸近的に得られる。
そこで本論文では,誤りレベルを考慮に入れたトップ2アルゴリズムのサンプル複雑性について,最初の非漸近上限を導出する。
本分析では,後悔最小化アルゴリズムをリーダとして使用するのに十分な特性を強調する。
これらの特性は UCB アルゴリズムによって満足され,提案した UCB ベースの Top Two アルゴリズムは非漸近的保証と競合的経験的性能を同時に享受する。
関連論文リスト
- Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - On Universally Optimal Algorithms for A/B Testing [49.429419538826444]
ベルヌーイ報奨を伴う多腕バンディットにおける固定予算によるベストアーム識別の問題について検討する。
A/Bテスト問題としても知られる2つのアームの問題に対して,各アームを等しくサンプリングするアルゴリズムが存在しないことを証明した。
論文 参考訳(メタデータ) (2023-08-23T08:38:53Z) - SPRT-based Efficient Best Arm Identification in Stochastic Bandits [31.359578768463752]
本稿では,固定信頼度設定におけるマルチアームバンディットの腕識別問題について検討する。
バンドイットの指数族に対する既存のアルゴリズムは計算上の課題に直面している。
逐次テストに有効であることが知られている確率比ベースのテストを採用するフレームワークが提案されている。
論文 参考訳(メタデータ) (2022-07-22T15:54:53Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Double Explore-then-Commit: Asymptotic Optimality and Beyond [101.77632893858063]
ガウス級報酬を用いたマルチアームバンディット問題について検討する。
本研究では,探索-then-commit (ETC) アルゴリズムの変種により,マルチアームバンディット問題に対する最適性が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T08:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。