Fugu-MT 論文翻訳(概要): Best Arm Identification with Fixed Budget: A Large Deviation Perspective

論文の概要: Best Arm Identification with Fixed Budget: A Large Deviation Perspective

arxiv url: http://arxiv.org/abs/2312.12137v2
Date: Mon, 19 Feb 2024 20:17:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 20:06:31.114418
Title: Best Arm Identification with Fixed Budget: A Large Deviation Perspective
Title（参考訳）: 固定予算を用いたベストアーム識別:大きな偏差視点
Authors: Po-An Wang, Ruo-Chun Tzeng and Alexandre Proutiere
Abstract要約: 我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
参考スコア（独自算出の注目度）: 54.305323903582845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of identifying the best arm in stochastic Multi-Armed Bandits (MABs) using a fixed sampling budget. Characterizing the minimal instance-specific error probability for this problem constitutes one of the important remaining open problems in MABs. When arms are selected using a static sampling strategy, the error probability decays exponentially with the number of samples at a rate that can be explicitly derived via Large Deviation techniques. Analyzing the performance of algorithms with adaptive sampling strategies is however much more challenging. In this paper, we establish a connection between the Large Deviation Principle (LDP) satisfied by the empirical proportions of arm draws and that satisfied by the empirical arm rewards. This connection holds for any adaptive algorithm, and is leveraged (i) to improve error probability upper bounds of some existing algorithms, such as the celebrated \sr (Successive Rejects) algorithm \citep{audibert2010best}, and (ii) to devise and analyze new algorithms. In particular, we present \sred (Continuous Rejects), a truly adaptive algorithm that can reject arms in {\it any} round based on the observed empirical gaps between the rewards of various arms. Applying our Large Deviation results, we prove that \sred enjoys better performance guarantees than existing algorithms, including \sr. Extensive numerical experiments confirm this observation.
Abstract（参考訳）: 確率的マルチアーマッドバンド(MAB)における最適なアームを固定サンプリング予算を用いて同定する問題を考察する。この問題に対する最小のインスタンス固有のエラー確率を特徴づけることは、MABにおける重要な未解決問題の1つである。静的サンプリング戦略を用いてアームを選択すると、誤差確率は、大きな偏差技術によって明示的に導出できる速度でサンプル数で指数関数的に減少する。しかし、適応サンプリング戦略を用いたアルゴリズムの性能解析の方がはるかに難しい。本稿では,大偏差原理 (LDP) をアームドローの経験的割合で満たし, アームドローの経験的報酬で満たす関係を確立する。この接続は任意の適応アルゴリズムを保持し、活用される (i)いくつかの既存アルゴリズムの誤差確率上限を改善するために、例えば、有名な \sr (successive rejects) アルゴリズム \citep{audibert2010best} や (ii)新しいアルゴリズムを考案し、分析すること。特に,様々な武器の報酬の間に生じる経験的ギャップに基づいて,腕を拒絶できる真に適応的なアルゴリズムである \sred (Continuous Rejects) を提案する。大偏差結果を適用することで、 \sredは既存のアルゴリズムである \sr よりも優れたパフォーマンス保証を享受できることを証明します。大規模な数値実験でこの観測が確認された。

関連論文リスト

Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文参考訳（メタデータ） (2024-05-23T22:35:11Z)
From Optimality to Robustness: Dirichlet Sampling Strategies in Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文参考訳（メタデータ） (2021-11-18T14:34:21Z)
Mean-based Best Arm Identification in Stochastic Bandits under Reward Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文参考訳（メタデータ） (2021-11-14T21:49:58Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文参考訳（メタデータ） (2020-06-29T14:25:51Z)
An Empirical Process Approach to the Union Bound: Practical Algorithms for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-21T00:56:33Z)
Best Arm Identification in Spectral Bandits [0.0]
BAI(Best Arm Identification)は、パラメータチューニングから臨床試験まで、多くの応用において重要な課題である。グラフの滑らか度制約を伴う帯域モデルにおいて,信頼度を固定したベストアーム識別について検討する。
論文参考訳（メタデータ） (2020-05-20T04:12:04Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)
The Simulator: Understanding Adaptive Sampling in the Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文参考訳（メタデータ） (2017-02-16T23:42:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。