論文の概要: Challenges in Statistical Analysis of Data Collected by a Bandit
Algorithm: An Empirical Exploration in Applications to Adaptively Randomized
Experiments
- arxiv url: http://arxiv.org/abs/2103.12198v1
- Date: Mon, 22 Mar 2021 22:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 04:13:57.983905
- Title: Challenges in Statistical Analysis of Data Collected by a Bandit
Algorithm: An Empirical Exploration in Applications to Adaptively Randomized
Experiments
- Title(参考訳): Banditアルゴリズムによるデータの統計的解析の課題:適応ランダム化実験への応用における実証的探索
- Authors: Joseph Jay Williams, Jacob Nogas, Nina Deliu, Hammad Shaikh, Sofia
Villar, Audrey Durand, Anna Rafferty
- Abstract要約: 多腕バンディットアルゴリズムは、適応的ランダム化実験に有用であると何十年も議論されてきた。
バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。
TSを用いたデータ収集はFalse Positive Rate(FPR)とFalse Negative Rate(FNR)を2倍にすることができることを示す。
- 参考スコア(独自算出の注目度): 11.464963616709671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-armed bandit algorithms have been argued for decades as useful for
adaptively randomized experiments. In such experiments, an algorithm varies
which arms (e.g. alternative interventions to help students learn) are assigned
to participants, with the goal of assigning higher-reward arms to as many
participants as possible. We applied the bandit algorithm Thompson Sampling
(TS) to run adaptive experiments in three university classes. Instructors saw
great value in trying to rapidly use data to give their students in the
experiments better arms (e.g. better explanations of a concept). Our
deployment, however, illustrated a major barrier for scientists and
practitioners to use such adaptive experiments: a lack of quantifiable insight
into how much statistical analysis of specific real-world experiments is
impacted (Pallmann et al, 2018; FDA, 2019), compared to traditional uniform
random assignment. We therefore use our case study of the ubiquitous two-arm
binary reward setting to empirically investigate the impact of using Thompson
Sampling instead of uniform random assignment. In this setting, using common
statistical hypothesis tests, we show that collecting data with TS can as much
as double the False Positive Rate (FPR; incorrectly reporting differences when
none exist) and the False Negative Rate (FNR; failing to report differences
when they exist)...
- Abstract(参考訳): マルチアームバンディットアルゴリズムは適応ランダム化実験に有用であるとして、数十年にわたって議論されてきた。
このような実験では、アルゴリズムはどの腕(例えば腕)を変える。
学生が学ぶための代替的な介入)は参加者に割り当てられ、できるだけ多くの参加者に上位の腕を割り当てることを目的としている。
バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。
インストラクタは、データを使って実験の学生により良い武器(例)を与えるのに大きな価値を見出した。
概念のより優れた説明)。
しかし、我々の展開は、科学者や実践者がこのような適応的な実験を使うための大きな障壁を示していた: 特定の現実世界の実験の統計的分析がどれほど影響するかについての定量的な知見が不足している(Pallmann et al, 2018; FDA, 2019)。
そこで本研究では,ユビキタスな二腕二腕報酬設定のケーススタディを用いて,一様ランダム代入ではなくトンプソンサンプリングが与える影響を実証的に検討する。
この設定では、一般的な統計的仮説テストを用いて、TSを用いたデータ収集は偽陽性率(FPR:False Positive Rate)と偽陰性率(FNR:False Negative Rate)の2倍の差を報告できないことを示す。
関連論文リスト
- Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Empirical Design in Reinforcement Learning [23.873958977534993]
現在、数十のタスクに対して数百万のパラメータを持つエージェントのベンチマークが一般的であり、それぞれが30日間の経験に相当するものを使用している。
これらの実験の規模は、特にアルゴリズムの比較において、適切な統計的証拠の必要性と矛盾することが多い。
この写本は、行動への呼びかけと、強化学習において優れた実験を行うための包括的なリソースの両方を表現している。
論文 参考訳(メタデータ) (2023-04-03T19:32:24Z) - Assign Experiment Variants at Scale in Online Controlled Experiments [1.9205538784019935]
オンライン制御実験(A/Bテスト)は、テクノロジー企業における新製品機能の影響を学ぶための金の標準となっている。
テクノロジー企業は大規模にA/Bテストを実行します -- 数千、あるいは数千のA/Bテストを同時に実行します。
ランダムな代入を検証するための新しい代入アルゴリズムと統計的試験を提案する。
論文 参考訳(メタデータ) (2022-12-17T00:45:12Z) - Using Adaptive Experiments to Rapidly Help Students [5.446351709118483]
我々は、トンプソンサンプリングアルゴリズムを用いて適応実験を行うことで、学生の宿題メールリマインダーの効果を評価する。
適応的ランダム化実験が多かれ少なかれ有用であるような条件について、様々なオープンな疑問を提起する。
論文 参考訳(メタデータ) (2022-08-10T00:43:05Z) - Increasing Students' Engagement to Reminder Emails Through Multi-Armed
Bandits [60.4933541247257]
本稿では,学生が週毎のメールリマインダーとどのように関わり,時間管理の習慣を構築するかについて,実世界の適応実験を行った。
適応実験にマルチアーマド・バンド(MAB)アルゴリズムを用いると、より良い結果が得られる可能性が高まる。
我々は、これらの適応アルゴリズムの問題点を強調します。例えば、大きな違いがない場合の腕の活用などです。
論文 参考訳(メタデータ) (2022-08-10T00:30:52Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - With Little Power Comes Great Responsibility [54.96675741328462]
アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別することがより困難になる。
小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルと比較しても、十分なパワーが得られないことを意味している。
機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。
論文 参考訳(メタデータ) (2020-10-13T18:00:02Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。