論文の概要: When Offline Selectors Cannot Beat the Best Single Model: A Diagnostic Study on edX Dropout Prediction
- arxiv url: http://arxiv.org/abs/2606.04161v1
- Date: Tue, 02 Jun 2026 19:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.347147
- Title: When Offline Selectors Cannot Beat the Best Single Model: A Diagnostic Study on edX Dropout Prediction
- Title(参考訳): オフラインセレクタが最高の単一モデルに勝てない場合:EDXドロップアウト予測に関する診断的研究
- Authors: Tyler Crosse, Alan Nadelsticher Ruvalcaba, Dustin Khang LeDuc, Thomas Trask, Nicholas Lytle, David Joyner,
- Abstract要約: 記録されたデータから訓練されたセレクタは 常に最強の予測器を 打ち負かさない
3段階の診断は、共有バッファ上でそれらを規定する。
次のイテレーションでは、オフラインの学習者をチューニングすることなく、状態を変更したり、新しいデータを集めたりする必要がある。
- 参考スコア(独自算出の注目度): 0.35185044688786976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different predictors often excel on different inputs, so picking the best one per instance promises higher accuracy than committing to a single model. In practice, selectors trained from logged data routinely fail to beat the strongest single predictor. Three causes typically go unseparated before more tuning is applied: a mismatched learner, a state that does not predict which model wins, or buffer-to-deployment label shift. A three-stage diagnostic rules them out on a shared buffer. Stage~1 estimates a local ceiling on oracle recovery from $k$-NN label consistency. Stage~2 asks whether paired BC and offline-RL learners (BC, DQN, and CQL across penalty weights) reach that ceiling. Stage~3 ablates the selector state to test whether richer features would raise it. The combined verdict points to the most promising next step: tuning the learner, redesigning the state, or collecting new data. We apply it to selecting among five dropout-prediction models on edX clickstream data. Across 16 windows, the oracle beats the strongest single base model by 9.7 accuracy points on average, yet BC, DQN, and CQL land in the same test-accuracy band below it (robust to a tenfold buffer sweep and $N{=}2{,}000$ held-out examples). The bottleneck is local representational ambiguity: CQL closes the imitation gap without a deployment gain (not conservatism), regret clusters tightly across learners (not tie-breaking), and the three learners converge on test accuracy (not shift). The next iteration should change the state or collect new data, not tune the offline learner further.
- Abstract(参考訳): 異なる予測器は、しばしば異なる入力に精通するので、インスタンス毎に最高の入力を選択することは、単一のモデルにコミットするよりも高い精度を約束する。
実際には、ログされたデータからトレーニングされたセレクタは、最も強い単一の予測器を正常に破ることができない。
ミスマッチした学習者、どのモデルが勝つかを予測しない状態、バッファからデプロイまでのラベルシフトである。
3段階の診断は、共有バッファ上でそれらを規定する。
Stage~1は、$k$-NNラベルの一貫性からオラクルリカバリのローカル天井を推定する。
ステージ~2では、BCとオフラインRL学習者(ペナルティウェイトを越えたBC、DQN、CQL)が天井に到達するかどうかを問う。
ステージ~3はセレクタステートを宣言し、よりリッチなフィーチャが上昇するかどうかをテストする。
統合された判断は、学習者のチューニング、状態の再設計、新しいデータ収集といった、最も有望な次のステップを示している。
edX クリックストリームデータ上での5つのドロップアウト予測モデルの選択に適用する。
16ウィンドウにわたって、オラクルは平均9.7の精度で最強の単一ベースモデルを打ち負かすが、BC、DQN、CQLは同じテスト精度のバンドに着陸する(10倍バッファスイープと$N{=}2{,}000$保留例)。
ボトルネックは、局所的な表現の曖昧さである: CQLは、デプロイメントの利得(保守主義ではない)、学習者間での後悔のクラスター(ネクタイブレークではない)、そして3人の学習者がテスト精度(シフトではない)に収束する。
次のイテレーションでは、オフラインの学習者をチューニングすることなく、状態を変更したり、新しいデータを集めたりする必要がある。
関連論文リスト
- Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline [56.53954182896384]
大規模言語モデルのための簡単な訓練後改良アルゴリズムである自己検証蒸留を提案する。
自己検証蒸留(Self-Verified Distillation)は、未ラベルの種問に対する候補解を生成する。
プロンプトベースの自己検証を使用してフィルタリングし、結果の自己計算データセットをトレーニングする。
トレーニングデータ構築中に、より多くの候補世代をサンプリングし、より大きな検証予算を使用することで、高品質な自己計算データが得られることがわかった。
論文 参考訳(メタデータ) (2026-05-20T17:26:10Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Dirichlet-Based Prediction Calibration for Learning with Noisy Labels [40.78497779769083]
雑音ラベルによる学習はディープニューラルネットワーク(DNN)の一般化性能を著しく損なう
既存のアプローチでは、損失補正やサンプル選択手法によってこの問題に対処している。
そこで我々は,textitDirichlet-based Prediction (DPC) 法を解法として提案する。
論文 参考訳(メタデータ) (2024-01-13T12:33:04Z) - REAL: A Representative Error-Driven Approach for Active Learning [15.477921200056887]
$REAL$は、$underlineR$epresentative $underlineE$rrors for $underlineA$ctive $underlineL$でデータインスタンスを選択する新しいアプローチである。
クラスタ内のEmphpseudoエラーとしてマイノリティ予測を識別し、推定エラー密度に基づいてクラスタの適応的なサンプリング予算を割り当てる。
論文 参考訳(メタデータ) (2023-07-03T12:39:26Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。