論文の概要: Globally Optimal Algorithms for Fixed-Budget Best Arm Identification
- arxiv url: http://arxiv.org/abs/2206.04646v2
- Date: Fri, 10 Jun 2022 00:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 11:46:31.540543
- Title: Globally Optimal Algorithms for Fixed-Budget Best Arm Identification
- Title(参考訳): 固定予算最良アーム識別のためのグローバル最適アルゴリズム
- Authors: Junpei Komiyama, Taira Tsuchiya, Junya Honda
- Abstract要約: すべての可能なパラメータに対する大域的最適化の結果,最適速度を特徴付ける。
遅延最適追跡(DOT)と呼ばれる概念的アルゴリズムを導入することで、この速度が実際に達成可能であることを示す。
- 参考スコア(独自算出の注目度): 16.500749121196986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the fixed-budget best arm identification problem where the goal
is to find the arm of the largest mean with a fixed number of samples. It is
known that the probability of misidentifying the best arm is exponentially
small to the number of rounds. However, limited characterizations have been
discussed on the rate (exponent) of this value. In this paper, we characterize
the optimal rate as a result of global optimization over all possible
parameters. We introduce two rates, $R^{\mathrm{go}}$ and
$R^{\mathrm{go}}_{\infty}$, corresponding to lower bounds on the
misidentification probability, each of which is associated with a proposed
algorithm. The rate $R^{\mathrm{go}}$ is associated with
$R^{\mathrm{go}}$-tracking, which can be efficiently implemented by a neural
network and is shown to outperform existing algorithms. However, this rate
requires a nontrivial condition to be achievable. To deal with this issue, we
introduce the second rate $R^{\mathrm{go}}_\infty$. We show that this rate is
indeed achievable by introducing a conceptual algorithm called delayed optimal
tracking (DOT).
- Abstract(参考訳): 我々は,最大平均のアームを一定数のサンプルで見つけることを目標とする固定予算最良アーム識別問題を考える。
最良の腕を誤認する確率は、ラウンド数に対して指数関数的に小さいことが知られている。
しかし、この値の速度(指数)について限定的な特徴づけが議論されている。
本稿では,全ての可能なパラメータに対する大域的最適化の結果として最適速度を特徴付ける。
R^{\mathrm{go}}$ と $R^{\mathrm{go}}_{\infty}$ という2つのレートを導入する。
R^{\mathrm{go}}$は$R^{\mathrm{go}}$-trackingに関連付けられており、ニューラルネットワークによって効率的に実装でき、既存のアルゴリズムより優れていることが示されている。
しかし、この速度は達成可能な非自明な条件を必要とする。
この問題に対処するために、第二のレート$R^{\mathrm{go}}_\infty$を導入する。
本稿では,遅延最適追跡 (DOT) という概念アルゴリズムを導入することで,この速度が実現可能であることを示す。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Optimal Top-Two Method for Best Arm Identification and Fluid Analysis [15.353009236788262]
最適な腕識別問題に対する最適トップ2型アルゴリズムを提案する。
提案アルゴリズムは$delta rightarrow 0$として最適であることを示す。
論文 参考訳(メタデータ) (2024-03-14T06:14:07Z) - A/B Testing and Best-arm Identification for Linear Bandits with
Robustness to Non-stationarity [28.068960555415014]
非定常環境下での線形包帯の固定予算ベストアーム識別問題について検討する。
アルゴリズムは、可能な限り高い確率で最適な腕 $x* := argmax_xinmathcalXxtopsum_t=1Ttheta_t$ を正しく識別することを目的としている。
論文 参考訳(メタデータ) (2023-07-27T19:03:36Z) - An Oblivious Stochastic Composite Optimization Algorithm for Eigenvalue
Optimization Problems [76.2042837251496]
相補的な合成条件に基づく2つの難解なミラー降下アルゴリズムを導入する。
注目すべきは、どちらのアルゴリズムも、目的関数のリプシッツ定数や滑らかさに関する事前の知識なしで機能する。
本稿では,大規模半確定プログラム上での手法の効率性とロバスト性を示す。
論文 参考訳(メタデータ) (2023-06-30T08:34:29Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Robust Estimation for Random Graphs [47.07886511972046]
我々は、$n$ノード上のErdHos-R'enyiランダムグラフのパラメータ$p$を頑健に推定する問題について検討する。
情報理論の限界であるすべての$gamma 1/2$に対して、同様の精度で非効率なアルゴリズムを与える。
論文 参考訳(メタデータ) (2021-11-09T18:43:25Z) - Bayesian Optimistic Optimisation with Exponentially Decaying Regret [58.02542541410322]
現在の実用的なBOアルゴリズムは、$mathcalO(fraclogNsqrtN)$から$mathcalO(e-sqrtN)$まで、$N$は評価の数である。
本稿では,boと木に基づく楽観的楽観化の概念を絡み合うことにより,無音環境における後悔を改善できる可能性について検討する。
次数$mathcal O(N-sqrt)で指数的再帰を達成できる最初の実践的手法であるBOOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T13:07:44Z) - Bandits with many optimal arms [68.17472536610859]
最適アームの割合は$p*$、最適アームとサブ最適化アームの間の最小平均ギャップは$Delta$と書きます。
我々は,累積的後悔設定と最良腕識別設定の両方において最適な学習率を特徴付ける。
論文 参考訳(メタデータ) (2021-03-23T11:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。