論文の概要: Increasing Students' Engagement to Reminder Emails Through Multi-Armed
Bandits
- arxiv url: http://arxiv.org/abs/2208.05090v1
- Date: Wed, 10 Aug 2022 00:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 13:18:56.144083
- Title: Increasing Students' Engagement to Reminder Emails Through Multi-Armed
Bandits
- Title(参考訳): マルチ武装バンディットによるメールリマインダーへの学生の関与拡大
- Authors: Fernando J. Yanez, Angela Zavaleta-Bernuy, Ziwen Han, Michael Liut,
Anna Rafferty, Joseph Jay Williams
- Abstract要約: 本稿では,学生が週毎のメールリマインダーとどのように関わり,時間管理の習慣を構築するかについて,実世界の適応実験を行った。
適応実験にマルチアーマド・バンド(MAB)アルゴリズムを用いると、より良い結果が得られる可能性が高まる。
我々は、これらの適応アルゴリズムの問題点を強調します。例えば、大きな違いがない場合の腕の活用などです。
- 参考スコア(独自算出の注目度): 60.4933541247257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conducting randomized experiments in education settings raises the question
of how we can use machine learning techniques to improve educational
interventions. Using Multi-Armed Bandits (MAB) algorithms like Thompson
Sampling (TS) in adaptive experiments can increase students' chances of
obtaining better outcomes by increasing the probability of assignment to the
most optimal condition (arm), even before an intervention completes. This is an
advantage over traditional A/B testing, which may allocate an equal number of
students to both optimal and non-optimal conditions. The problem is the
exploration-exploitation trade-off. Even though adaptive policies aim to
collect enough information to allocate more students to better arms reliably,
past work shows that this may not be enough exploration to draw reliable
conclusions about whether arms differ. Hence, it is of interest to provide
additional uniform random (UR) exploration throughout the experiment. This
paper shows a real-world adaptive experiment on how students engage with
instructors' weekly email reminders to build their time management habits. Our
metric of interest is open email rates which tracks the arms represented by
different subject lines. These are delivered following different allocation
algorithms: UR, TS, and what we identified as TS{\dag} - which combines both TS
and UR rewards to update its priors. We highlight problems with these adaptive
algorithms - such as possible exploitation of an arm when there is no
significant difference - and address their causes and consequences. Future
directions includes studying situations where the early choice of the optimal
arm is not ideal and how adaptive algorithms can address them.
- Abstract(参考訳): 教育環境でランダムな実験を行うことは、教育介入を改善するために機械学習技術をどのように利用できるかという疑問を提起する。
適応実験でトンプソンサンプリング(ts)のようなマルチアームバンディット(mab)アルゴリズムを使用すると、介入が完了する前に最も最適な条件(arm)に割り当てる確率を増加させることで、生徒がより良い結果を得る確率を高めることができる。
これは、最適条件と非最適条件の両方に同じ数の学生を割り当てる従来のA/Bテストよりも有利である。
問題は探査と探査のトレードオフです。
適応的な政策は、より多くの学生を確実に武器に割り当てるための十分な情報を集めることを目的としているが、過去の研究は、腕の違いについて信頼できる結論を導き出すのに十分ではないことを示している。
したがって、実験全体を通して一様ランダム(UR)探索を行うことは興味深い。
本稿では,学生が週毎のメールリマインダーとどのように関わり,時間管理の習慣を構築するかを実世界の適応実験で示す。
私たちの関心の指標は、異なる主題ラインで表される腕を追跡するオープンメールレートです。
これらは、UR、TS、そして我々がTS{\dag}として特定したものの、事前を更新するためにTSとURの報酬を組み合わせた、異なるアロケーションアルゴリズムに従って配信される。
これらの適応アルゴリズム(大きな違いがない場合の腕の活用など)の問題を強調し、その原因と結果に対処する。
今後の方向性には、最適なアームの早期選択が理想的でない状況と、適応アルゴリズムがそれに対応する方法を研究することが含まれる。
関連論文リスト
- Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。
この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。
我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-17T00:44:50Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Contextual Bandits in a Survey Experiment on Charitable Giving:
Within-Experiment Outcomes versus Policy Learning [21.9468085255912]
我々は,対象とする治療課題ポリシーを学習するための適応的な実験(文脈的帯域幅')を設計し,実装する。
目的は、参加者のアンケート回答を使用して、寄付募集においてどの慈善団体に公開するかを決定することである。
パイロットデータを収集し, シミュレーション実験を行うことにより, 代替実験設計の評価を行った。
論文 参考訳(メタデータ) (2022-11-22T04:44:17Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Challenges in Statistical Analysis of Data Collected by a Bandit
Algorithm: An Empirical Exploration in Applications to Adaptively Randomized
Experiments [11.464963616709671]
多腕バンディットアルゴリズムは、適応的ランダム化実験に有用であると何十年も議論されてきた。
バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。
TSを用いたデータ収集はFalse Positive Rate(FPR)とFalse Negative Rate(FNR)を2倍にすることができることを示す。
論文 参考訳(メタデータ) (2021-03-22T22:05:18Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。