論文の概要: Synthetic Student Responses: LLM-Extracted Features for IRT Difficulty Parameter Estimation
- arxiv url: http://arxiv.org/abs/2602.00034v1
- Date: Sun, 18 Jan 2026 18:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.238115
- Title: Synthetic Student Responses: LLM-Extracted Features for IRT Difficulty Parameter Estimation
- Title(参考訳): 合成学生の反応:IRT困難パラメータ推定のためのLLM抽出特徴
- Authors: Matias Hoyl,
- Abstract要約: 項目応答理論の難易度パラメータを学生試験なしで正確に推定できるかどうかを検討する。
我々のアプローチは,Large Language Models (LLMs) を用いて抽出した従来の言語特徴と教育的洞察を組み合わせたものである。
数学の質問に対する25万以上の学生回答のデータセットを用いて、予測された難易度パラメータと全く見えない質問の実際の難易度パラメータの約0.78のPearson相関が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Educational assessment relies heavily on knowing question difficulty, traditionally determined through resource-intensive pre-testing with students. This creates significant barriers for both classroom teachers and assessment developers. We investigate whether Item Response Theory (IRT) difficulty parameters can be accurately estimated without student testing by modeling the response process and explore the relative contribution of different feature types to prediction accuracy. Our approach combines traditional linguistic features with pedagogical insights extracted using Large Language Models (LLMs), including solution step count, cognitive complexity, and potential misconceptions. We implement a two-stage process: first training a neural network to predict how students would respond to questions, then deriving difficulty parameters from these simulated response patterns. Using a dataset of over 250,000 student responses to mathematics questions, our model achieves a Pearson correlation of approximately 0.78 between predicted and actual difficulty parameters on completely unseen questions.
- Abstract(参考訳): 教育評価は、伝統的に学生との資源集約的な事前試験を通じて決定される、質問の難しさを知ることに大きく依存している。
これにより、教室教師とアセスメント開発者の両方にとって大きな障壁が生じる。
反応過程をモデル化することで,学生試験を使わずに項目応答理論(IRT)の難易度パラメータを正確に推定できるかどうかを検証し,様々な特徴型の相対的寄与を予測精度に求める。
提案手法は,従来の言語機能とLarge Language Models (LLMs) を用いて抽出した教育的洞察を組み合わせ,解法ステップ数,認知的複雑性,潜在的な誤解を含む。
まず、ニューラルネットワークをトレーニングして、学生が質問にどう反応するかを予測し、これらのシミュレーションされた応答パターンから難易度パラメータを導出する。
数学の質問に対する25万以上の学生回答のデータセットを用いて、予測された難易度パラメータと全く見当たらない質問の実際の難易度パラメータの約0.78のピアソン相関を求める。
関連論文リスト
- Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors [58.65143578052761]
本稿では,推論誤りの高品質な合成例を構成する新しい手法であるMISTAKEを提案する。
3つの教育課題において,MISTAKEを評価した結果,(1)誤答のシミュレーションにおいて高い精度が得られた。
論文 参考訳(メタデータ) (2025-10-13T15:10:38Z) - SMART: Simulated Students Aligned with Item Response Theory for Question Difficulty Prediction [38.7828715471869]
本稿では、シミュレーションされた学生を指導力で整列させる新しい方法SMART(Simulated Students Aligned with IRT)を提案する。
SMARTは、その改善された能力アライメントを活用することで、他の項目の難易度予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-07T15:41:38Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Exploring the Potential of Large Language Models for Estimating the Reading Comprehension Question Difficulty [2.335292678914151]
本研究では,Large Language Models (LLMs) の有効性を検討した。
また,OpenAI の GPT-4o と o1 を用いて,学習支援・読解評価 (SARA) データセットを用いた理解的質問の読解の難しさを推定する。
その結果, モデルがIRTパラメータと有意に一致した難易度推定値を生成する一方で, 極端項目特性に対する感度に顕著な差があることが示唆された。
論文 参考訳(メタデータ) (2025-02-25T02:28:48Z) - Are You Doubtful? Oh, It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation [12.638577140117702]
本研究では,不確実性の特徴が難易度予測に大きく寄与することを示し,難易度は質問に正しく答えられる学生数に逆比例することを示した。
このアプローチの価値を示すことに加えて,USMLEとCMCQRDの公開データセット上で,我々のモデルが最先端の結果を達成することも観察した。
論文 参考訳(メタデータ) (2024-12-16T14:55:09Z) - LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。
真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。
我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文 参考訳(メタデータ) (2024-10-16T06:51:09Z) - Scalable Learning of Item Response Theory Models [48.91265296134559]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - Introducing a framework to assess newly created questions with Natural
Language Processing [3.364554138758565]
本稿では,新たに作成された複数質問の難易度と差別度を推定するためのモデルを訓練し,評価する枠組みを提案する。
このフレームワークを使って1つのモデルを実装し、CloudAcademyが提供する実世界のデータセットでテストします。
論文 参考訳(メタデータ) (2020-04-28T13:57:21Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。