論文の概要: BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration
- arxiv url: http://arxiv.org/abs/2410.21033v1
- Date: Mon, 28 Oct 2024 13:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:16:04.811038
- Title: BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration
- Title(参考訳): BanditCATとAutoIRT: コンピュータ適応テストと項目校正のための機械学習アプローチ
- Authors: James Sharpnack, Kevin Hao, Phoebe Mulcaire, Klinton Bicknell, Geoff LaFlair, Kevin Yancey, Alina A. von Davier,
- Abstract要約: 本稿では,少数の応答を持つ大規模コンピュータ適応テスト(CAT)の校正と管理を行うための完全なフレームワークを提案する。
自動機械学習(AutoML)とアイテム応答理論(IRT)を組み合わせた新しい手法であるAutoIRTを使用している。
我々は、コンテキスト的バンディットフレームワークに問題をキャストし、アイテム応答理論(IRT)を利用する手法であるBanditCATフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.261063083251448
- License:
- Abstract: In this paper, we present a complete framework for quickly calibrating and administering a robust large-scale computerized adaptive test (CAT) with a small number of responses. Calibration - learning item parameters in a test - is done using AutoIRT, a new method that uses automated machine learning (AutoML) in combination with item response theory (IRT), originally proposed in [Sharpnack et al., 2024]. AutoIRT trains a non-parametric AutoML grading model using item features, followed by an item-specific parametric model, which results in an explanatory IRT model. In our work, we use tabular AutoML tools (AutoGluon.tabular, [Erickson et al., 2020]) along with BERT embeddings and linguistically motivated NLP features. In this framework, we use Bayesian updating to obtain test taker ability posterior distributions for administration and scoring. For administration of our adaptive test, we propose the BanditCAT framework, a methodology motivated by casting the problem in the contextual bandit framework and utilizing item response theory (IRT). The key insight lies in defining the bandit reward as the Fisher information for the selected item, given the latent test taker ability from IRT assumptions. We use Thompson sampling to balance between exploring items with different psychometric characteristics and selecting highly discriminative items that give more precise information about ability. To control item exposure, we inject noise through an additional randomization step before computing the Fisher information. This framework was used to initially launch two new item types on the DET practice test using limited training data. We outline some reliability and exposure metrics for the 5 practice test experiments that utilized this framework.
- Abstract(参考訳): 本稿では,少数の応答を伴う大規模コンピュータ適応テスト(CAT)を高速に校正し,管理するための完全なフレームワークを提案する。
キャリブレーション(Calibration) - テストでアイテムパラメータを学習する - は,[Sharpnack et al , 2024]で最初に提案されたアイテム応答理論(IRT)と組み合わせて,自動機械学習(AutoML)を使用する新しい手法であるAutoIRTを使って行われる。
AutoIRTは、アイテム機能を使用して非パラメトリックのAutoMLグレーディングモデルをトレーニングし、続いてアイテム固有のパラメトリックモデルを実行し、説明的なIRTモデルを生み出します。
作業では、BERT埋め込みと言語的に動機付けられたNLP機能とともに、表形式のAutoMLツール(AutoGluon.tabular, [Erickson et al , 2020])を使用します。
本フレームワークでは,ベイジアン更新を用いて,管理とスコアリングのためのテストテイカー能力後部分布を求める。
適応テストを管理するために,BanditCATフレームワークを提案する。BanditCATフレームワークは,コンテキスト的バンディットフレームワークに問題をキャストし,項目応答理論(IRT)を活用する手法である。
主要な洞察は、IRTの仮定から潜在テストテイクラー能力を考えると、選択した項目のフィッシャー情報としてバンディット報酬を定義することである。
我々はトンプソンサンプリングを用いて、異なる心理測定特性を持つ探索項目と、能力に関するより正確な情報を与える高度に識別された項目のバランスをとる。
アイテムの露出を制御するために、フィッシャー情報を計算する前に、追加のランダム化ステップを通じてノイズを注入する。
このフレームワークは最初、限られたトレーニングデータを使用して、DETプラクティステストで2つの新しいアイテムタイプをローンチするために使用された。
このフレームワークを利用した5つのプラクティステスト実験の信頼性と露出の指標を概説する。
関連論文リスト
- Introducing Flexible Monotone Multiple Choice Item Response Theory Models and Bit Scales [0.0]
本稿では,複数選択データに対する新しいモデルであるモノトーン多重選択(MMC)モデルを提案する。
MMCモデルは、適合性の観点から、従来の名目応答IRTモデルよりも優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-10-02T12:33:16Z) - AutoIRT: Calibrating Item Response Theory Models with Automated Machine Learning [8.079755354261328]
本稿では、アウトオブボックス自動機械学習(AutoML)ツールと互換性のある多段階のフィッティング手順を提案する。
モンテカルロEM(MCEM)の外ループに2段の内ループがあり、アイテムの特徴を使って非パラメトリックオートMLグレードモデルを訓練し、続いてアイテム固有のパラメトリックモデルを訓練する。
結果のモデルは通常より良好で、予測性能が向上し、既存の手法よりも正確なスコアが得られます。
論文 参考訳(メタデータ) (2024-09-13T13:36:51Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Robust Test-Time Adaptation in Dynamic Scenarios [9.475271284789969]
テスト時適応(TTA)は、未ラベルのテストデータストリームのみを用いて、事前訓練されたモデルを分散をテストすることを目的としている。
PTTAの複雑なデータストリームに対してロバストテスト時間適応法(RoTTA)を精査する。
私たちのメソッドは実装が簡単で、迅速なデプロイメントに適しています。
論文 参考訳(メタデータ) (2023-03-24T10:19:14Z) - Autoencoded sparse Bayesian in-IRT factorization, calibration, and
amortized inference for the Work Disability Functional Assessment Battery [1.6114012813668934]
作業障害機能評価電池(WD-FAB)は、作業関連心身機能を評価するための多次元項目応答理論(IRT)である。
我々は,次の同時タスクを自己整合的に実行するためのベイズ階層モデルを開発した。
従来のポストホック法を用いて得られた項目識別結果を比較した。
論文 参考訳(メタデータ) (2022-10-20T01:55:59Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Systematic Training and Testing for Machine Learning Using Combinatorial
Interaction Testing [0.0]
本稿では,機械学習モデルにおけるテストセットとトレーニングセットの選択と特徴付けのためのカバレッジの体系的利用について述べる。
この論文は、カバレッジに対する事前の批判に対処し、機械学習アプリケーションにおけるカバレッジメトリクスの使用を提唱する反論を提供する。
論文 参考訳(メタデータ) (2022-01-28T21:33:31Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。