論文の概要: Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization
- arxiv url: http://arxiv.org/abs/2112.08507v1
- Date: Wed, 15 Dec 2021 22:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 09:11:19.611570
- Title: Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization
- Title(参考訳): 一様ランダムアサインメントとリワード最大化を組み合わせたリワードとのトレードオフ統計解析のための適応実験アルゴリズム
- Authors: Jacob Nogas, Tong Li, Fernando J. Yanez, Arghavan Modiri, Nina Deliu,
Ben Prystawski, Sofia S. Villar, Anna Rafferty, Joseph J. Williams
- Abstract要約: トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
- 参考スコア(独自算出の注目度): 50.725191156128645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-armed bandit algorithms like Thompson Sampling can be used to conduct
adaptive experiments, in which maximizing reward means that data is used to
progressively assign more participants to more effective arms. Such assignment
strategies increase the risk of statistical hypothesis tests identifying a
difference between arms when there is not one, and failing to conclude there is
a difference in arms when there truly is one. We present simulations for 2-arm
experiments that explore two algorithms that combine the benefits of uniform
randomization for statistical analysis, with the benefits of reward
maximization achieved by Thompson Sampling (TS). First, Top-Two Thompson
Sampling adds a fixed amount of uniform random allocation (UR) spread evenly
over time. Second, a novel heuristic algorithm, called TS PostDiff (Posterior
Probability of Difference). TS PostDiff takes a Bayesian approach to mixing TS
and UR: the probability a participant is assigned using UR allocation is the
posterior probability that the difference between two arms is `small' (below a
certain threshold), allowing for more UR exploration when there is little or no
reward to be gained. We find that TS PostDiff method performs well across
multiple effect sizes, and thus does not require tuning based on a guess for
the true effect size.
- Abstract(参考訳): トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは、報酬を最大化することで、より多くの参加者をより効果的な腕に割り当てるためにデータが使用されるという適応的な実験に使用できる。
このような割当て戦略は、腕がないときの腕の違いを特定する統計的仮説テストのリスクを増大させ、真に腕があるときの腕の違いを結論付けない。
本稿では,統計的解析における一様ランダム化の利点と,トンプソンサンプリング(TS)による報酬最大化の利点を組み合わせた2つのアルゴリズムを探索する2本腕実験のシミュレーションを提案する。
まずTop-Two Thompson Samplingは、一定量の均一なランダムアロケーション(UR)を時間とともに均等に拡大する。
第2に、TS PostDiff (Posterior Probability of Difference)と呼ばれる新しいヒューリスティックアルゴリズム。
TS PostDiff は TS と UR を混合するためにベイズ的アプローチをとる: UR の割り当てによって参加者が割り振られる確率は、2つの腕の差が '小さい' (あるしきい値以下) であるという後続の確率である。
TS PostDiff法は複数の効果サイズに対して良好に動作し,真の効果サイズを推測したチューニングを必要としないことがわかった。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Increasing Students' Engagement to Reminder Emails Through Multi-Armed
Bandits [60.4933541247257]
本稿では,学生が週毎のメールリマインダーとどのように関わり,時間管理の習慣を構築するかについて,実世界の適応実験を行った。
適応実験にマルチアーマド・バンド(MAB)アルゴリズムを用いると、より良い結果が得られる可能性が高まる。
我々は、これらの適応アルゴリズムの問題点を強調します。例えば、大きな違いがない場合の腕の活用などです。
論文 参考訳(メタデータ) (2022-08-10T00:30:52Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Top Two Algorithms Revisited [14.783452541904365]
トップ2のアルゴリズムは、トンプソンサンプリングの多腕バンディットモデルにおける最高の腕識別への適応として現れた。
本稿では,トップ2手法の一般解析を行い,リーダーの望ましい特性,挑戦者,および腕の(おそらくは非パラメトリックな)分布を同定する。
提案手法は,トンプソンサンプリングから受け継いだリーダの選択に使用されるサンプリングステップを,他の選択に置き換えることができることを示す。
論文 参考訳(メタデータ) (2022-06-13T09:03:24Z) - Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse
Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances [27.122181278234617]
両腕のガウスバンドにおける固定予算ベストアーム識別問題について検討する。
本稿では,アームドローの目標配置確率を推定し,ランダム化サンプリング(RS)を用いたサンプリングルールを含む戦略を提案する。
提案手法は,サンプルサイズが無限大になり,両腕間のギャップがゼロとなる場合に,不可視的に最適であることを示す。
論文 参考訳(メタデータ) (2022-01-12T13:38:33Z) - Challenges in Statistical Analysis of Data Collected by a Bandit
Algorithm: An Empirical Exploration in Applications to Adaptively Randomized
Experiments [11.464963616709671]
多腕バンディットアルゴリズムは、適応的ランダム化実験に有用であると何十年も議論されてきた。
バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。
TSを用いたデータ収集はFalse Positive Rate(FPR)とFalse Negative Rate(FNR)を2倍にすることができることを示す。
論文 参考訳(メタデータ) (2021-03-22T22:05:18Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。