論文の概要: AutoIRT: Calibrating Item Response Theory Models with Automated Machine Learning
- arxiv url: http://arxiv.org/abs/2409.08823v1
- Date: Fri, 13 Sep 2024 13:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:29:18.257385
- Title: AutoIRT: Calibrating Item Response Theory Models with Automated Machine Learning
- Title(参考訳): AutoIRT: 自動機械学習による項目応答理論モデルの校正
- Authors: James Sharpnack, Phoebe Mulcaire, Klinton Bicknell, Geoff LaFlair, Kevin Yancey,
- Abstract要約: 本稿では、アウトオブボックス自動機械学習(AutoML)ツールと互換性のある多段階のフィッティング手順を提案する。
モンテカルロEM(MCEM)の外ループに2段の内ループがあり、アイテムの特徴を使って非パラメトリックオートMLグレードモデルを訓練し、続いてアイテム固有のパラメトリックモデルを訓練する。
結果のモデルは通常より良好で、予測性能が向上し、既存の手法よりも正確なスコアが得られます。
- 参考スコア(独自算出の注目度): 8.079755354261328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Item response theory (IRT) is a class of interpretable factor models that are widely used in computerized adaptive tests (CATs), such as language proficiency tests. Traditionally, these are fit using parametric mixed effects models on the probability of a test taker getting the correct answer to a test item (i.e., question). Neural net extensions of these models, such as BertIRT, require specialized architectures and parameter tuning. We propose a multistage fitting procedure that is compatible with out-of-the-box Automated Machine Learning (AutoML) tools. It is based on a Monte Carlo EM (MCEM) outer loop with a two stage inner loop, which trains a non-parametric AutoML grade model using item features followed by an item specific parametric model. This greatly accelerates the modeling workflow for scoring tests. We demonstrate its effectiveness by applying it to the Duolingo English Test, a high stakes, online English proficiency test. We show that the resulting model is typically more well calibrated, gets better predictive performance, and more accurate scores than existing methods (non-explanatory IRT models and explanatory IRT models like BERT-IRT). Along the way, we provide a brief survey of machine learning methods for calibration of item parameters for CATs.
- Abstract(参考訳): 項目応答理論 (IRT) は、コンピュータ適応テスト(CAT)で広く使われている解釈可能な因子モデルのクラスである。
伝統的に、これらはテストテイカーがテスト項目(すなわち質問)に対して正しい答えを得る確率に関するパラメトリック混合効果モデルを用いて適合する。
BertIRTのようなこれらのモデルのニューラルネット拡張は、特別なアーキテクチャとパラメータチューニングを必要とする。
本稿では、アウトオブボックス自動機械学習(AutoML)ツールと互換性のある多段階のフィッティング手順を提案する。
モンテカルロEM(MCEM)の外ループに2段の内ループがあり、アイテムの特徴を使って非パラメトリックオートMLグレードモデルを訓練し、続いてアイテム固有のパラメトリックモデルを訓練する。
これにより、テストを評価するためのモデリングワークフローが大幅に加速します。
オンライン英語習熟度テストのDuolingo English Testに適用することで,その効果を実証する。
結果のモデルは通常、よりよく校正され、予測性能が向上し、既存の方法よりも正確なスコアが得られた(非説明的IRTモデルとBERT-IRTのような説明的IRTモデル)。
その過程で、CATの項目パラメータの校正のための機械学習手法について簡単な調査を行う。
関連論文リスト
- BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration [7.261063083251448]
本稿では,少数の応答を持つ大規模コンピュータ適応テスト(CAT)の校正と管理を行うための完全なフレームワークを提案する。
自動機械学習(AutoML)とアイテム応答理論(IRT)を組み合わせた新しい手法であるAutoIRTを使用している。
我々は、コンテキスト的バンディットフレームワークに問題をキャストし、アイテム応答理論(IRT)を利用する手法であるBanditCATフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-28T13:54:10Z) - Introducing Flexible Monotone Multiple Choice Item Response Theory Models and Bit Scales [0.0]
本稿では,複数選択データに対する新しいモデルであるモノトーン多重選択(MMC)モデルを提案する。
MMCモデルは、適合性の観点から、従来の名目応答IRTモデルよりも優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-10-02T12:33:16Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Point-TTA: Test-Time Adaptation for Point Cloud Registration Using
Multitask Meta-Auxiliary Learning [17.980649681325406]
我々は、ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAを提案する。
我々のモデルは、テストデータの事前の知識を必要とせずに、テスト時に目に見えない分布に適応することができる。
訓練中は, 補助タスクによる適応モデルにより主タスクの精度が向上するように, メタ補助学習アプローチを用いて訓練を行う。
論文 参考訳(メタデータ) (2023-08-31T06:32:11Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Learning continuous models for continuous physics [94.42705784823997]
本研究では,科学技術応用のための機械学習モデルを検証する数値解析理論に基づくテストを開発する。
本研究は,従来のMLトレーニング/テスト手法と一体化して,科学・工学分野におけるモデルの検証を行う方法である。
論文 参考訳(メタデータ) (2022-02-17T07:56:46Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Testing Monotonicity of Machine Learning Models [0.5330240017302619]
本稿では,モノトニック性の検証に基づく検証テスト,すなわち,検証技術を用いたホワイトボックスモデル上でのテスト入力の形式的計算を提案する。
ホワイトボックスモデルでは、テストケースの直接計算によって、テスト入力の空間を体系的に探索することができる。
90のブラックボックスモデルに対する実証的な評価は、検証ベースのテストは、適応的ランダムテストと、有効性と効率性に関してプロパティベースの技術より優れていることを示している。
論文 参考訳(メタデータ) (2020-02-27T17:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。