論文の概要: Text-Based Approaches to Item Difficulty Modeling in Large-Scale Assessments: A Systematic Review
- arxiv url: http://arxiv.org/abs/2509.23486v1
- Date: Sat, 27 Sep 2025 20:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.256469
- Title: Text-Based Approaches to Item Difficulty Modeling in Large-Scale Assessments: A Systematic Review
- Title(参考訳): 大規模評価における項目難読化のためのテキストベースアプローチ:体系的レビュー
- Authors: Sydney Peters, Nan Zhang, Hong Jiao, Ming Li, Tianyi Zhou, Robert Lissitz,
- Abstract要約: アイテムの難しさは、テストパフォーマンス、スコアの解釈可能性、そして、特に大規模な評価において、すべてのテストテイカーにとって重要な役割を担います。
アイテム困難モデリングへの伝統的なアプローチは、フィールドテストと古典的テスト理論(CTT)に基づくアイテム分析またはアイテム応答理論(IRT)キャリブレーションに依存している。
本稿では,2025年5月までの大規模評価設定において,自動項目難易度予測に関する37項目をレビューし,合成する。
- 参考スコア(独自算出の注目度): 18.045716459188366
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Item difficulty plays a crucial role in test performance, interpretability of scores, and equity for all test-takers, especially in large-scale assessments. Traditional approaches to item difficulty modeling rely on field testing and classical test theory (CTT)-based item analysis or item response theory (IRT) calibration, which can be time-consuming and costly. To overcome these challenges, text-based approaches leveraging machine learning and language models, have emerged as promising alternatives. This paper reviews and synthesizes 37 articles on automated item difficulty prediction in large-scale assessment settings published through May 2025. For each study, we delineate the dataset, difficulty parameter, subject domain, item type, number of items, training and test data split, input, features, model, evaluation criteria, and model performance outcomes. Results showed that although classic machine learning models remain relevant due to their interpretability, state-of-the-art language models, using both small and large transformer-based architectures, can capture syntactic and semantic patterns without the need for manual feature engineering. Uniquely, model performance outcomes were summarized to serve as a benchmark for future research and overall, text-based methods have the potential to predict item difficulty with root mean square error (RMSE) as low as 0.165, Pearson correlation as high as 0.87, and accuracy as high as 0.806. The review concludes by discussing implications for practice and outlining future research directions for automated item difficulty modeling.
- Abstract(参考訳): アイテムの難しさは、テストパフォーマンス、スコアの解釈可能性、そして、特に大規模な評価において、すべてのテストテイカーにとって重要な役割を担います。
アイテム困難モデリングへの伝統的なアプローチは、フィールドテストと古典的テスト理論(CTT)に基づくアイテム分析またはアイテム応答理論(IRT)キャリブレーションに依存しており、時間と費用がかかる。
これらの課題を克服するために、機械学習と言語モデルを活用したテキストベースのアプローチが、有望な代替手段として登場した。
本稿では,2025年5月までの大規模評価設定において,自動項目難易度予測に関する37項目をレビューし,合成する。
各研究は,データセット,難易度パラメータ,主題領域,項目タイプ,項目数,トレーニングおよびテストデータ分割,インプット,特徴,モデル,評価基準,モデルパフォーマンス結果について記述する。
結果から,従来の機械学習モデルは解釈可能性のため関連性は保たれているが,手動機能工学を必要とせずに,小型および大規模トランスフォーマーベースのアーキテクチャを用いて,構文的および意味的パターンをキャプチャできることがわかった。
モデル性能の結果は、将来の研究のベンチマークとしてまとめられ、テキストベースの手法では、ルート平均二乗誤差(RMSE)が0.165、ピアソン相関が0.87、精度が0.806と予測できる可能性がある。
本総説では, 自動項目難読モデリングの実践と今後の研究の方向性について概説した。
関連論文リスト
- Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Scalable Learning of Item Response Theory Models [48.91265296134559]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Evaluation of Categorical Generative Models -- Bridging the Gap Between
Real and Synthetic Data [18.142397311464343]
生成モデルに対する適切な拡張性の評価手法を提案する。
我々は、より困難なモデリングタスクに対応する、ますます大きな確率空間を考える。
我々は, 合成生成モデルと最先端のカテゴリー生成モデルの両方について, 合成実験により評価方法を検証する。
論文 参考訳(メタデータ) (2022-10-28T21:05:25Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。