Fugu-MT 論文翻訳(概要): Non-Asymptotic Analysis of a UCB-based Top Two Algorithm

論文の概要: Non-Asymptotic Analysis of a UCB-based Top Two Algorithm

arxiv url: http://arxiv.org/abs/2210.05431v3
Date: Mon, 6 Nov 2023 22:31:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 20:10:07.977441
Title: Non-Asymptotic Analysis of a UCB-based Top Two Algorithm
Title（参考訳）: UCBに基づくトップ2アルゴリズムの非漸近解析
Authors: Marc Jourdan, R\'emy Degenne
Abstract要約: バンディット識別のためのトップ2サンプリングルールは、2つの候補アームの中から次のアームを選択する方法である。提案するUCBベースのトップ2は,非漸近的保証と競合経験性能を同時に享受する。
参考スコア（独自算出の注目度）: 4.18804572788063
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: A Top Two sampling rule for bandit identification is a method which selects the next arm to sample from among two candidate arms, a leader and a challenger. Due to their simplicity and good empirical performance, they have received increased attention in recent years. However, for fixed-confidence best arm identification, theoretical guarantees for Top Two methods have only been obtained in the asymptotic regime, when the error level vanishes. In this paper, we derive the first non-asymptotic upper bound on the expected sample complexity of a Top Two algorithm, which holds for any error level. Our analysis highlights sufficient properties for a regret minimization algorithm to be used as leader. These properties are satisfied by the UCB algorithm, and our proposed UCB-based Top Two algorithm simultaneously enjoys non-asymptotic guarantees and competitive empirical performance.
Abstract（参考訳）: バンディット識別のためのトップ2サンプリングルールは、2つの候補アーム、リーダー、挑戦者の中から次のアームを選択する方法である。その単純さと優れた経験的パフォーマンスにより、近年は注目を集めている。しかし、固定信頼最善腕識別では、最上位2つの方法に対する理論的保証は、誤差レベルが失われるときのみ漸近的に得られる。そこで本論文では,誤りレベルを考慮に入れたトップ2アルゴリズムのサンプル複雑性について,最初の非漸近上限を導出する。本分析では,後悔最小化アルゴリズムをリーダとして使用するのに十分な特性を強調する。これらの特性は UCB アルゴリズムによって満足され,提案した UCB ベースの Top Two アルゴリズムは非漸近的保証と競合的経験的性能を同時に享受する。

関連論文リスト

Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [56.805574957824135]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。 TPAUC最適化のための既存のアルゴリズムは未探索のままである。 TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文参考訳（メタデータ） (2025-05-28T03:55:05Z)
UCB algorithms for multi-armed bandits: Precise regret and adaptive inference [6.349503549199403]
upper Confidence Bound (UCB) アルゴリズムは、$K$武器の盗聴問題に対して広く使われているシーケンシャルアルゴリズムのクラスである。 Lai-Robbins の後悔公式が真であることと、その部分最適性ギャップが$sigmasqrtKlog T/T$を超える場合に限ることを示す。また、その最大後悔は対数係数によって最小後悔から逸脱し、従ってその厳密な最小最適性を負に設定することを示した。
論文参考訳（メタデータ） (2024-12-09T01:14:02Z)
Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。 CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文参考訳（メタデータ） (2023-10-24T09:47:32Z)
On Universally Optimal Algorithms for A/B Testing [49.429419538826444]
ベルヌーイ報奨を伴う多腕バンディットにおける固定予算によるベストアーム識別の問題について検討する。 A/Bテスト問題としても知られる2つのアームの問題に対して,各アームを等しくサンプリングするアルゴリズムが存在しないことを証明した。
論文参考訳（メタデータ） (2023-08-23T08:38:53Z)
SPRT-based Efficient Best Arm Identification in Stochastic Bandits [31.359578768463752]
本稿では,固定信頼度設定におけるマルチアームバンディットの腕識別問題について検討する。バンドイットの指数族に対する既存のアルゴリズムは計算上の課題に直面している。逐次テストに有効であることが知られている確率比ベースのテストを採用するフレームワークが提案されている。
論文参考訳（メタデータ） (2022-07-22T15:54:53Z)
Mean-based Best Arm Identification in Stochastic Bandits under Reward Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文参考訳（メタデータ） (2021-11-14T21:49:58Z)
An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文参考訳（メタデータ） (2020-10-23T09:12:47Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Double Explore-then-Commit: Asymptotic Optimality and Beyond [101.77632893858063]
ガウス級報酬を用いたマルチアームバンディット問題について検討する。本研究では,探索-then-commit (ETC) アルゴリズムの変種により,マルチアームバンディット問題に対する最適性が得られることを示す。
論文参考訳（メタデータ） (2020-02-21T08:07:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。