論文の概要: Learning to Optimize Feedback for One Million Students: Insights from Multi-Armed and Contextual Bandits in Large-Scale Online Tutoring
- arxiv url: http://arxiv.org/abs/2508.00270v1
- Date: Fri, 01 Aug 2025 02:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.714803
- Title: Learning to Optimize Feedback for One Million Students: Insights from Multi-Armed and Contextual Bandits in Large-Scale Online Tutoring
- Title(参考訳): 100万人の学生のフィードバックを最適化する学習:大規模オンライン授業におけるマルチアーマッドとコンテキストバンドの考察
- Authors: Robin Schmucker, Nimish Pachapurkar, Shanmuga Bala, Miral Shah, Tom Mitchell,
- Abstract要約: 本稿では,学生が誤った質問に答えた後,効果的なフィードバックを提供することを学習するオンライン学習システムを提案する。
このシステムは、100万人の学生のデータを使って、各質問に対してどの支援行動を提供するかを学習し、生徒の学習を最適化する。
166,000件の実践セッションで得られたMAB政策を評価し,学生の成果に有意な改善が認められた。
- 参考スコア(独自算出の注目度): 1.3184846764437286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an online tutoring system that learns to provide effective feedback to students after they answer questions incorrectly. Using data from one million students, the system learns which assistance action (e.g., one of multiple hints) to provide for each question to optimize student learning. Employing the multi-armed bandit (MAB) framework and offline policy evaluation, we assess 43,000 assistance actions, and identify trade-offs between assistance policies optimized for different student outcomes (e.g., response correctness, session completion). We design an algorithm that for each question decides on a suitable policy training objective to enhance students' immediate second attempt success and overall practice session performance. We evaluate the resulting MAB policies in 166,000 practice sessions, verifying significant improvements in student outcomes. While MAB policies optimize feedback for the overall student population, we further investigate whether contextual bandit (CB) policies can enhance outcomes by personalizing feedback based on individual student features (e.g., ability estimates, response times). Using causal inference, we examine (i) how effects of assistance actions vary across students and (ii) whether CB policies, which leverage such effect heterogeneity, outperform MAB policies. While our analysis reveals that some actions for some questions exhibit effect heterogeneity, effect sizes may often be too small for CB policies to provide significant improvements beyond what well-optimized MAB policies that deliver the same action to all students already achieve. We discuss insights gained from deploying data-driven systems at scale and implications for future refinements. Today, the teaching policies optimized by our system support thousands of students daily.
- Abstract(参考訳): 本稿では,学生が誤った質問に答えた後,効果的なフィードバックを提供することを学習するオンライン学習システムを提案する。
このシステムは、100万人の学生のデータを使って、各質問に対する支援行動(たとえば複数のヒントの1つ)を学習し、生徒の学習を最適化する。
マルチアーム・バンディット(MAB)フレームワークとオフライン政策評価を用いて、43,000の援助行動を評価し、異なる学生結果(例えば、応答正当性、セッション完了)に最適化された援助政策間のトレードオフを特定する。
我々は,学生の即時2回目の試みの成功と総合的な実践セッションのパフォーマンスを高めるために,各質問に対して適切な政策訓練目標を決定するアルゴリズムを設計する。
166,000件の実践セッションで得られたMAB政策を評価し,学生の成果に有意な改善が認められた。
MAB政策は学生全体のフィードバックを最適化する一方で、個々の学生の特徴(能力推定、応答時間など)に基づいてフィードバックをパーソナライズすることで、文脈的帯域幅(CB)政策が成果を向上できるかどうかをさらに検討する。
因果推論を用いた検討
一 学生によって援助行動の効果がどう異なるか、及び
2) この効果を利用したCBポリシーがMABポリシーを上回っているか。
分析の結果, 効果の不均一性を示す問題もあるが, CBポリシーでは効果サイズが小さすぎる場合が多く, 既に達成しているすべての生徒に同じ行動をもたらす, 最適化されたMABポリシー以上の大きな改善が得られない。
データ駆動システムの大規模展開から得られた洞察と,今後の改良への示唆について論じる。
現在,本システムによって最適化された教育方針は,数千人の学生を毎日支援している。
関連論文リスト
- Personalised Feedback Framework for Online Education Programmes Using Generative AI [0.0]
本稿では,埋め込みを組み込むことでChatGPTの機能を拡張したフィードバックフレームワークを提案する。
本研究の一環として,オープンエンドおよび複数選択質問に対する有効率90%と100%を達成できる概念解の証明を提案し,開発した。
論文 参考訳(メタデータ) (2024-10-14T22:35:40Z) - Active Fine-Tuning of Multi-Task Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Differentiating Student Feedbacks for Knowledge Tracing [28.669001606806525]
本稿では,訓練における評価に基づいて,様々な反応の寄与を再重み付けする枠組みを提案する。
また,判別応答の少ない精度を維持するために,適応的な予測スコア融合手法を導入する。
論文 参考訳(メタデータ) (2022-12-16T13:55:07Z) - Explainable Action Advising for Multi-Agent Reinforcement Learning [32.49380192781649]
アクションアドバイザリング(Action Advising)とは、教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
本稿では,教師がアクションアドバイスと関連する説明を提示し,アクションが選択された理由を説明するための説明可能なアクションアドバイスを紹介する。
これにより、学生は学んだことを自己認識し、一般化アドバイスを可能にし、サンプル効率と学習性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-15T04:15:03Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Discovering an Aid Policy to Minimize Student Evasion Using Offline
Reinforcement Learning [2.2344764434954256]
オフライン強化学習を用いた学生の援助行動選択のための意思決定支援手法を提案する。
実学生のログデータを用いた実験では,非政治評価により,ログ政策の約1.0倍から1.5倍の累積報酬を得られることが判明した。
論文 参考訳(メタデータ) (2021-04-20T21:45:19Z) - Deep Discourse Analysis for Generating Personalized Feedback in
Intelligent Tutor Systems [4.716555240531893]
ITS(Intelligent Tutoring System)で、自動化されたパーソナライズされたフィードバックの作成を検討します。
我々のゴールは、学生のより優れた学習目標を達成するために、学生の回答の正しい概念と間違った概念を見極めることである。
論文 参考訳(メタデータ) (2021-03-13T20:33:10Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。