論文の概要: Suboptimal Performance of the Bayes Optimal Algorithm in Frequentist Best Arm Identification
- arxiv url: http://arxiv.org/abs/2202.05193v3
- Date: Mon, 15 Apr 2024 02:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 00:46:46.603362
- Title: Suboptimal Performance of the Bayes Optimal Algorithm in Frequentist Best Arm Identification
- Title(参考訳): 周波数ベストアーム同定におけるベイズ最適アルゴリズムの最適化性能
- Authors: Junpei Komiyama,
- Abstract要約: 正規分布による報酬を伴う固定予算ベストアーム識別問題を考察する。
この問題では、予測者は、腕(または治療)が$K$、タイムステップが$T$である。
アルゴリズムの性能は、推定されたベストアームの品質を反映して、単純な後悔によって評価される。
- 参考スコア(独自算出の注目度): 5.176134438571082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the fixed-budget best arm identification problem with rewards following normal distributions. In this problem, the forecaster is given $K$ arms (or treatments) and $T$ time steps. The forecaster attempts to find the arm with the largest mean, via an adaptive experiment conducted using an algorithm. The algorithm's performance is evaluated by simple regret, reflecting the quality of the estimated best arm. While frequentist simple regret can decrease exponentially with respect to $T$, Bayesian simple regret decreases polynomially. This paper demonstrates that the Bayes optimal algorithm, which minimizes the Bayesian simple regret, does not yield an exponential decrease in simple regret under certain parameter settings. This contrasts with the numerous findings that suggest the asymptotic equivalence of Bayesian and frequentist approaches in fixed sampling regimes. Although the Bayes optimal algorithm is formulated as a recursive equation that is virtually impossible to compute exactly, we lay the groundwork for future research by introducing a novel concept termed the expected Bellman improvement.
- Abstract(参考訳): 正規分布による報酬を伴う固定予算ベストアーム識別問題を考察する。
この問題では、予測者は、腕(または治療)が$K$、タイムステップが$T$である。
予測器はアルゴリズムを用いて行った適応実験を通じて、最大の平均を持つ腕を見つけようとする。
アルゴリズムの性能は、推定されたベストアームの品質を反映して、単純な後悔によって評価される。
頻繁な単純な後悔はT$に対して指数関数的に減少するが、ベイズ的単純後悔は多項式的に減少する。
本稿では,ベイズ的単純後悔を最小化するベイズ最適アルゴリズムが,パラメータ設定下において,単純後悔の指数関数的に減少しないことを示す。
これは、ベイズ的および頻繁なアプローチの、固定サンプリング体制における漸近的同値性を示す多くの発見とは対照的である。
ベイズ最適アルゴリズムは、正確に計算することが事実上不可能な再帰方程式として定式化されているが、ベルマン改良と呼ばれる新しい概念を導入することにより、将来の研究の基盤を固める。
関連論文リスト
- Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Only Pay for What Is Uncertain: Variance-Adaptive Thompson Sampling [44.921905700729766]
ほとんどのバンディットアルゴリズムは、報酬のばらつきまたはその上限が知られており、全ての腕について同じであると仮定する。
この動機付けは、強いインスタンス依存の後悔境界を持つ分散適応型頻繁性アルゴリズムに関する先行研究である。
我々は、過去の知識を取り入れたベイズ的設定の基礎を築いた。
論文 参考訳(メタデータ) (2023-03-16T02:07:29Z) - Accelerated SGD for Non-Strongly-Convex Least Squares [14.010916616909743]
非強凸設定における最小二乗回帰問題の近似を考察する。
本稿では,問題のノイズに依存して最適な予測誤差率を実現するための,最初の実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-03T14:39:33Z) - Rate-optimal Bayesian Simple Regret in Best Arm Identification [11.389780431092914]
マルチアームバンディット問題における腕の識別について検討する。
本稿では,その先行項を定数係数まで下界にマッチングする,単純で容易に計算できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-18T18:59:35Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。