論文の概要: Bayesian information theoretic model-averaging stochastic item selection for computer adaptive testing: compromise-free item exposure
- arxiv url: http://arxiv.org/abs/2504.15543v1
- Date: Tue, 22 Apr 2025 02:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 22:41:13.715574
- Title: Bayesian information theoretic model-averaging stochastic item selection for computer adaptive testing: compromise-free item exposure
- Title(参考訳): ベイズ情報理論モデルによるコンピュータ適応テストのための確率的項目選択:妥協のない項目露出
- Authors: Joshua C. Chang, Edison Choe,
- Abstract要約: 我々はベイズ情報理論の観点から,CAT(Computer Adaptive Testing)の最適化問題を定式化する。
このセレクタは、アイテムの露出とテスト精度/効率の両面において優れた特性を持つことがわかった。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of Computer Adaptive Testing (CAT) is to reliably estimate an individual's ability as modeled by an item response theory (IRT) instrument using only a subset of the instrument's items. A secondary goal is to vary the items presented across different testing sessions so that the sequence of items does not become overly stereotypical -- we want all items to have an exposure rate sufficiently far from zero. We formulate the optimization problem for CAT in terms of Bayesian information theory, where one chooses the item at each step based on the criterion of the ability model discrepancy -- the statistical distance between the ability estimate at the next step and the full-test ability estimate. This viewpoint of CAT naturally motivates a stochastic selection procedure that equates choosing the next item to sampling from a model-averaging ensemble ability model. Using the NIH Work Disability Functional Assessment Battery (WD-FAB), we evaluate our new methods in comparison to pre-existing methods found in the literature. We find that our stochastic selector has superior properties in terms of both item exposure and test accuracy/efficiency.
- Abstract(参考訳): CAT(Computer Adaptive Testing)の目標は、アイテム応答理論(IRT)によってモデル化された個人の能力を、機器の項目のサブセットのみを用いて確実に推定することである。
第二のゴールは、さまざまなテストセッションで提示される項目を変更して、項目の列が過度にステレオタイプ的にならないようにすることであり、すべての項目がゼロから十分に離れた露出率を持つようにしたい。ベイズ情報理論の観点から、CATの最適化問題を定式化し、各ステップにおいて、各項目が能力モデルの不一致の基準に基づいて、次のステップにおける能力推定値とフルテスト能力推定値との統計的距離を定式化する。
CATのこの視点は自然に次の項目を選択する確率的選択手順を動機付け、モデル構築型アンサンブル能力モデルからサンプリングする。
NIH Work Disability Functional Assessment Battery (WD-FAB) を用いて, 文献にみられる既存手法との比較を行った。
確率的セレクタはアイテムの露出とテスト精度/効率の両面において優れた特性を有することがわかった。
関連論文リスト
- How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
人間の評価に最も有用なデータポイントを得るためのセレクタ群を開発した。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Evaluation of human-model prediction difference on the Internet Scale of Data [32.7296837724399]
データセットのモデルを評価することは、予期せぬ多様な入力に直面すると、その振る舞いを捉えるのに失敗することが多い。
入力空間のPRによってNNを評価し比較する新しい手法であるOmniInputを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:53:12Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Addressing Selection Bias in Computerized Adaptive Testing: A User-Wise
Aggregate Influence Function Approach [14.175555669521987]
本稿では,選択バイアス問題に対処するユーザ・ワイド・アグリゲート・インフルエンス関数法を提案する。
私たちの直感は、レスポンスデータが集約的に大きく偏っているユーザをフィルタリングすることです。
論文 参考訳(メタデータ) (2023-08-23T04:57:21Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Out-of-sample scoring and automatic selection of causal estimators [0.0]
本稿では,CATEの場合と器楽変数問題の重要な部分集合に対する新しいスコアリング手法を提案する。
私たちはそれを、DoWhyとEconMLライブラリに依存するオープンソースパッケージで実装しています。
論文 参考訳(メタデータ) (2022-12-20T08:29:18Z) - Autoencoded sparse Bayesian in-IRT factorization, calibration, and
amortized inference for the Work Disability Functional Assessment Battery [1.6114012813668934]
作業障害機能評価電池(WD-FAB)は、作業関連心身機能を評価するための多次元項目応答理論(IRT)である。
我々は,次の同時タスクを自己整合的に実行するためのベイズ階層モデルを開発した。
従来のポストホック法を用いて得られた項目識別結果を比較した。
論文 参考訳(メタデータ) (2022-10-20T01:55:59Z) - Contextual Active Model Selection [10.925932167673764]
本稿では,ラベル付けコストを最小限に抑えつつ,事前学習したモデルを積極的に選択する手法を提案する。
目的は、ラベル要求を制限しながら予測を行う最良のモデルを適応的に選択することである。
2つの新しいコンポーネントに依存した文脈的アクティブモデル選択アルゴリズムであるCAMSを提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Adaptive Sequential Design for a Single Time-Series [2.578242050187029]
期待される結果を最適化するために、設計の制御されたコンポーネントの最適かつ未知の選択を学習する。
我々は、時間とともに収集されたデータに基づいて、将来のタイムポイント実験にランダム化機構を適用する。
論文 参考訳(メタデータ) (2021-01-29T22:51:45Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。