論文の概要: Best Arm Identification in Stochastic Bandits: Beyond $\beta-$optimality
- arxiv url: http://arxiv.org/abs/2301.03785v1
- Date: Tue, 10 Jan 2023 05:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:26:05.297476
- Title: Best Arm Identification in Stochastic Bandits: Beyond $\beta-$optimality
- Title(参考訳): 確率帯域における最高の腕識別:$\beta-$optimalityを超える
- Authors: Arpan Mukherjee and Ali Tajer
- Abstract要約: 本稿では,固定信頼度,パラメトリック設定におけるマルチアームバンディット(MAB)のベストアーム識別(BAI)に焦点を当てた。
サンプリング戦略の精度は、アーム間のサンプリング資源の逐次割り当てに批判的に掛かる。
- 参考スコア(独自算出の注目度): 31.359578768463752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on best arm identification (BAI) in stochastic multi-armed
bandits (MABs) in the fixed-confidence, parametric setting. In such pure
exploration problems, the accuracy of the sampling strategy critically hinges
on the sequential allocation of the sampling resources among the arms. The
existing approaches to BAI address the following question: what is an optimal
sampling strategy when we spend a $\beta$ fraction of the samples on the best
arm? These approaches treat $\beta$ as a tunable parameter and offer efficient
algorithms that ensure optimality up to selecting $\beta$, hence
$\beta-$optimality. However, the BAI decisions and performance can be highly
sensitive to the choice of $\beta$. This paper provides a BAI algorithm that is
agnostic to $\beta$, dispensing with the need for tuning $\beta$, and specifies
an optimal allocation strategy, including the optimal value of $\beta$.
Furthermore, the existing relevant literature focuses on the family of
exponential distributions. This paper considers a more general setting of any
arbitrary family of distributions parameterized by their mean values (under
mild regularity conditions).
- Abstract(参考訳): 本稿では,固定信頼パラメトリック設定における確率的多腕バンディット(mabs)における最良腕識別(bai)に着目した。
このような純粋な探索問題において、サンプリング戦略の精度は、アーム間のサンプリング資源の逐次配置に決定的に影響を及ぼす。
BAIの既存のアプローチは次のような問題に対処している。 ベストアームのサンプルの$\beta$分を費やすとき、最適なサンプリング戦略は何ですか?
これらのアプローチは$\beta$を調整可能なパラメータとして扱い、$\beta$を選択するまでの最適性を保証する効率的なアルゴリズムを提供する。
しかし、BAIの決定とパフォーマンスは$\beta$の選択に非常に敏感である。
本稿では、$\beta$に非依存なBAIアルゴリズムを提供し、$\beta$をチューニングする必要がなく、$\beta$の最適値を含む最適なアロケーション戦略を指定する。
さらに、既存の関連文献は指数分布の族に焦点をあてている。
本稿では, 平均値によってパラメータ化された任意の分布列のより一般的な設定について考察する。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - A Novel Ranking Scheme for the Performance Analysis of Stochastic Optimization Algorithms using the Principles of Severity [9.310464457958844]
複数の単目的最適化問題に対してアルゴリズムをランク付けする新しいランキング方式を提案する。
アルゴリズムの結果は、ロバストなブートストラップに基づく仮説テスト手法を用いて比較される。
論文 参考訳(メタデータ) (2024-05-31T19:35:34Z) - Selection of the Most Probable Best [2.1095005405219815]
予測値ランキングと選択(R&S)問題では,すべてのk解のシミュレーション出力が,分布によって不確実性をモデル化可能な共通パラメータに依存する。
我々は、最も確率の高い最適解 (MPB) を、分布に関して最適である確率が最も大きい解と定義する。
最適化条件における未知の手段をその推定値に置き換えるアルゴリズムを考案し,シミュレーション予算が増加するにつれて,アルゴリズムのサンプリング比が条件を満たすことを証明した。
論文 参考訳(メタデータ) (2022-07-15T15:27:27Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。