論文の概要: Best Arm Identification in Stochastic Bandits: Beyond $\beta-$optimality
- arxiv url: http://arxiv.org/abs/2301.03785v2
- Date: Thu, 22 Jun 2023 20:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:56:51.110961
- Title: Best Arm Identification in Stochastic Bandits: Beyond $\beta-$optimality
- Title(参考訳): 確率帯域における最高の腕識別:$\beta-$optimalityを超える
- Authors: Arpan Mukherjee and Ali Tajer
- Abstract要約: 本稿では,固定信頼設定における多腕バンディットにおけるベストアーム識別(BAI)の非装飾的側面について検討する。
帯域幅アルゴリズムを評価するための2つの重要な指標は、計算効率と性能最適性である。
本稿では,BAIのためのフレームワークとアルゴリズムを導入し,計算効率のよい決定ルールセットを用いて最適性能を実現する。
- 参考スコア(独自算出の注目度): 31.359578768463752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates a hitherto unaddressed aspect of best arm
identification (BAI) in stochastic multi-armed bandits in the fixed-confidence
setting. Two key metrics for assessing bandit algorithms are computational
efficiency and performance optimality (e.g., in sample complexity). In
stochastic BAI literature, there have been advances in designing algorithms to
achieve optimal performance, but they are generally computationally expensive
to implement (e.g., optimization-based methods). There also exist approaches
with high computational efficiency, but they have provable gaps to the optimal
performance (e.g., the $\beta$-optimal approaches in top-two methods). This
paper introduces a framework and an algorithm for BAI that achieves optimal
performance with a computationally efficient set of decision rules. The central
process that facilitates this is a routine for sequentially estimating the
optimal allocations up to sufficient fidelity. Specifically, these estimates
are accurate enough for identifying the best arm (hence, achieving optimality)
but not overly accurate to an unnecessary extent that creates excessive
computational complexity (hence, maintaining efficiency). Furthermore, the
existing relevant literature focuses on the family of exponential
distributions. This paper considers a more general setting of any arbitrary
family of distributions parameterized by their mean values (under mild
regularity conditions). The optimality is established analytically, and
numerical evaluations are provided to assess the analytical guarantees and
compare the performance with those of the existing ones.
- Abstract(参考訳): 本稿では,固定信頼度設定における確率的マルチアームバンディットにおけるベストアーム識別(BAI)の非適応的側面について検討する。
帯域幅アルゴリズムを評価する2つの重要な指標は、計算効率と性能最適性(例:サンプル複雑性)である。
確率的bai文学では最適性能を達成するアルゴリズムの設計が進歩してきたが、一般に計算コストが高い(最適化に基づく手法など)。
高い計算効率を持つアプローチもあるが、最適性能(例えば、上位2つの手法における$\beta$-Optimalアプローチ)には証明可能なギャップがある。
本稿では,計算効率の高い決定規則群を用いて最適な性能を実現するためのフレームワークとアルゴリズムを提案する。
これを促進する中心的なプロセスは、最適な割り当てを十分な忠実度まで逐次推定するルーチンである。
特に、これらの推定は最適なアームを識別するのに十分正確であるが、過剰な計算の複雑さを生じさせる不要な範囲に過度に正確ではない。
さらに、既存の関連文献は指数分布の族に焦点をあてている。
本稿では, 平均値によってパラメータ化された任意の分布列のより一般的な設定について考察する。
最適性は解析的に確立され、解析保証を評価し、既存のものと性能を比較する数値評価が行われる。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - A Novel Ranking Scheme for the Performance Analysis of Stochastic Optimization Algorithms using the Principles of Severity [9.310464457958844]
複数の単目的最適化問題に対してアルゴリズムをランク付けする新しいランキング方式を提案する。
アルゴリズムの結果は、ロバストなブートストラップに基づく仮説テスト手法を用いて比較される。
論文 参考訳(メタデータ) (2024-05-31T19:35:34Z) - Selection of the Most Probable Best [2.1095005405219815]
予測値ランキングと選択(R&S)問題では,すべてのk解のシミュレーション出力が,分布によって不確実性をモデル化可能な共通パラメータに依存する。
我々は、最も確率の高い最適解 (MPB) を、分布に関して最適である確率が最も大きい解と定義する。
最適化条件における未知の手段をその推定値に置き換えるアルゴリズムを考案し,シミュレーション予算が増加するにつれて,アルゴリズムのサンプリング比が条件を満たすことを証明した。
論文 参考訳(メタデータ) (2022-07-15T15:27:27Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。