論文の概要: Guaranteed Fixed-Confidence Best Arm Identification in Multi-Armed
Bandit
- arxiv url: http://arxiv.org/abs/2106.06848v1
- Date: Sat, 12 Jun 2021 20:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:49:15.517865
- Title: Guaranteed Fixed-Confidence Best Arm Identification in Multi-Armed
Bandit
- Title(参考訳): マルチアーマッドバンドにおける信頼度ベストアーム識別の保証
- Authors: MohammadJavad Azizi, Sheldon M Ross, Zhengyu Zhang
- Abstract要約: 我々は,n個体群(腕)が最大の平均値を持つ適応サンプリングによる探索の問題を考える。
本研究の目的は, できるだけ少ない観測値を用いて, 最良集団を最小限の信頼度で識別するルールを決定することである。
- 参考スコア(独自算出の注目度): 1.5469452301122177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of finding, through adaptive sampling, which of n
populations (arms) has the largest mean. Our objective is to determine a rule
which identifies the best population with a fixed minimum confidence using as
few observations as possible, i.e. fixed-confidence (FC) best arm
identification (BAI) in multi-armed bandits. We study such problems under the
Bayesian setting with both Bernoulli and Gaussian populations. We propose to
use the classical vector at a time (VT) rule, which samples each alive
population once in each round. We show how VT can be implemented and analyzed
in our Bayesian setting and be improved by early elimination. We also propose
and analyze a variant of the classical play the winner (PW) algorithm.
Numerical results show that these rules compare favorably with state-of-art
algorithms.
- Abstract(参考訳): 我々は,n個体群(腕)が最大の平均値を持つ適応サンプリングによる探索の問題を考える。
本研究の目的は, できるだけ少ない観測値を用いて, 最良集団を最小限の信頼性で識別するルールを決定することである。
固定信条(FC) BAI (Best Arm ID) は、多武装の盗賊。
我々はベルヌーイとガウスの両人口のベイズ的設定の下でそのような問題を研究する。
我々は,各ラウンドに1回だけ生存個体数をサンプリングする古典ベクトルを時間(vt)規則で用いることを提案する。
ベイジアン設定でVTをどのように実装・分析し、早期除去により改善できるかを示す。
また,古典的プレイ・ザ・ウィナー (pw) アルゴリズムの変種を提案し,解析する。
数値計算の結果,これらのルールは最先端のアルゴリズムと良好に比較できることがわかった。
関連論文リスト
- Fixed Confidence Best Arm Identification in the Bayesian Setting [6.083234045523298]
ベイズ設定における固定信頼度ベストアーム識別(FC-BAI)問題を考察する。
この問題は、既知の既知値からバンディットモデルがサンプリングされたときに、信頼度が固定された最大の平均のアームを見つけることを目的としている。
論文 参考訳(メタデータ) (2024-02-16T03:36:03Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Bayesian Fixed-Budget Best-Arm Identification [24.31655036648236]
固定予算ベストアーム識別(英語: Fixed-budget best-arm identification、BAI)は、エージェントが一定の予算内で最適な腕を特定する確率を最大化する盗賊問題である。
ベイズ除去アルゴリズムを提案し、最適な腕を誤識別する確率の上限を導出する。
論文 参考訳(メタデータ) (2022-11-15T23:29:51Z) - Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse
Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances [27.122181278234617]
両腕のガウスバンドにおける固定予算ベストアーム識別問題について検討する。
本稿では,アームドローの目標配置確率を推定し,ランダム化サンプリング(RS)を用いたサンプリングルールを含む戦略を提案する。
提案手法は,サンプルサイズが無限大になり,両腕間のギャップがゼロとなる場合に,不可視的に最適であることを示す。
論文 参考訳(メタデータ) (2022-01-12T13:38:33Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Robust Outlier Arm Identification [16.21284542559277]
ロバスト・アウトリー・アーム識別(ROAI)の問題点について検討する。
目標は、期待される報酬が多数派から大きく逸脱した武器を特定することである。
我々は、期待される報酬の中央値と中央値の絶対偏差を用いて、外れ値のしきい値を算出する。
論文 参考訳(メタデータ) (2020-09-21T16:13:01Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。