論文の概要: Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse
Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances
- arxiv url: http://arxiv.org/abs/2201.04469v1
- Date: Wed, 12 Jan 2022 13:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 15:01:27.713381
- Title: Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse
Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances
- Title(参考訳): 未知変数を持つ2アーマガウス帯域における加算逆確率推定器を用いた最適固定予算ベストアーム同定
- Authors: Masahiro Kato and Kaito Ariu and Masaaki Imaizumi and Masatoshi Uehara
and Masahiro Nomura and and Chao Qin
- Abstract要約: 両腕のガウスバンドにおける固定予算ベストアーム識別問題について検討する。
本稿では,アームドローの目標配置確率を推定し,ランダム化サンプリング(RS)を用いたサンプリングルールを含む戦略を提案する。
提案手法は,サンプルサイズが無限大になり,両腕間のギャップがゼロとなる場合に,不可視的に最適であることを示す。
- 参考スコア(独自算出の注目度): 25.596240384975296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the fixed-budget best arm identification problem in two-armed
Gaussian bandits with unknown variances. The tightest lower bound on the
complexity and an algorithm whose performance guarantee matches the lower bound
have long been open problems when the variances are unknown and when the
algorithm is agnostic to the optimal proportion of the arm draws. In this
paper, we propose a strategy comprising a sampling rule with randomized
sampling (RS) following the estimated target allocation probabilities of arm
draws and a recommendation rule using the augmented inverse probability
weighting (AIPW) estimator, which is often used in the causal inference
literature. We refer to our strategy as the RS-AIPW strategy. In the
theoretical analysis, we first derive a large deviation principle for
martingales, which can be used when the second moment converges in mean, and
apply it to our proposed strategy. Then, we show that the proposed strategy is
asymptotically optimal in the sense that the probability of misidentification
achieves the lower bound by Kaufmann et al. (2016) when the sample size becomes
infinitely large and the gap between the two arms goes to zero.
- Abstract(参考訳): 未知の分散を持つ2本腕ガウスバンドの固定予算最良アーム識別問題を考える。
複雑性の最も厳密な下界と下界に適合する性能保証アルゴリズムは、分散が不明で、アルゴリズムがアームドローの最適割合に無関係である場合、長い間開いている問題であった。
本稿では,アームドローの推定目標割当確率に追従したランダムサンプリング(rs)によるサンプリング規則と,因果推論文献でよく用いられる拡張逆確率重み付け(aipw)推定器を用いた推奨規則を含む戦略を提案する。
当社の戦略をRS-AIPW戦略と呼ぶ。
理論解析において,我々はまず,第2モーメントが平均収束するときに使用可能なマルティンガレスに対する大きな偏差原理を導出し,提案する戦略に適用する。
そこで,提案手法は標本サイズが無限大になり,両腕間の隙間がゼロとなる場合に,Kaufmann et al. (2016) による下界を達成するという意味で,漸近的に最適であることを示す。
関連論文リスト
- Locally Optimal Fixed-Budget Best Arm Identification in Two-Armed Gaussian Bandits with Unknown Variances [10.470114319701576]
本稿では,適応実験における分散を推定し,推定標準偏差の比率でアームを描画する手法を提案する。
以上の結果から,小ギャップ体制を特徴とする最悪のシナリオでは,変動が未知であっても,推定分散を利用する戦略が最適であることが示唆された。
論文 参考訳(メタデータ) (2023-12-20T03:28:49Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Semiparametric Best Arm Identification with Contextual Information [10.915684166086026]
バンディット問題において,固定予算と文脈情報を用いたベストアーム識別について検討した。
本研究では,ターゲットアロケーション比とレコメンデーションルールを追跡するランダムサンプリングルールとからなる「コンテキストRS-AIPW戦略」を開発する。
提案手法は,予算が無限に進むと,誤識別確率の上限が半下限と一致するため,最適である。
論文 参考訳(メタデータ) (2022-09-15T14:38:47Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - A Non-asymptotic Approach to Best-Arm Identification for Gaussian
Bandits [0.0]
本稿では,ガウス変数の信頼度を一定に保ち,有界な手段と単位分散を持つベストアーム識別のための新しい戦略を提案する。
探索バイアスサンプリング(Exploration-Biased Sampling)と呼ばれるこの戦略は、必ずしも最適ではない。
論文 参考訳(メタデータ) (2021-05-27T07:42:49Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。