論文の概要: Take Out Your Calculators: Estimating the Real Difficulty of Question Items with LLM Student Simulations
- arxiv url: http://arxiv.org/abs/2601.09953v1
- Date: Thu, 15 Jan 2026 00:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.929898
- Title: Take Out Your Calculators: Estimating the Real Difficulty of Question Items with LLM Student Simulations
- Title(参考訳): LLM学生シミュレーションによる質問項目の真の難易度の推定
- Authors: Christabel Acquaye, Yi Ting Huang, Marine Carpuat, Rachel Rudinger,
- Abstract要約: 実世界の学生を対象とした数学質問の難易度を評価するため,オープンソースの大規模言語モデル(LLM)の予測値について検討した。
我々は,4年生,8年生,12年生の「教室」をシミュレートし,LLMを様々な習熟度を持つロールプレイングの学生に促す。
我々は,4級,8級,12級の相関関係を0.75,0.76,0.82まで観測した。
- 参考スコア(独自算出の注目度): 36.23612429926861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standardized math assessments require expensive human pilot studies to establish the difficulty of test items. We investigate the predictive value of open-source large language models (LLMs) for evaluating the difficulty of multiple-choice math questions for real-world students. We show that, while LLMs are poor direct judges of problem difficulty, simulation-based approaches with LLMs yield promising results under the right conditions. Under the proposed approach, we simulate a "classroom" of 4th, 8th, or 12th grade students by prompting the LLM to role-play students of varying proficiency levels. We use the outcomes of these simulations to fit Item Response Theory (IRT) models, comparing learned difficulty parameters for items to their real-world difficulties, as determined by item-level statistics furnished by the National Assessment of Educational Progress (NAEP). We observe correlations as high as 0.75, 0.76, and 0.82 for grades 4, 8, and 12, respectively. In our simulations, we experiment with different "classroom sizes," showing tradeoffs between computation size and accuracy. We find that role-plays with named students improves predictions (compared to student ids), and stratifying names across gender and race further improves predictions. Our results show that LLMs with relatively weaker mathematical abilities (Gemma) actually yield better real-world difficulty predictions than mathematically stronger models (Llama and Qwen), further underscoring the suitability of open-source models for the task.
- Abstract(参考訳): 標準的な数学評価は、テスト項目の難易度を確立するために高価な人間のパイロット研究を必要とする。
本研究では,オープンソースの大規模言語モデル (LLM) の予測値について検討し,実世界の学生を対象とした多点数質問の難易度を評価する。
LLM は問題難易度を直接判断するに乏しいが,シミュレーションに基づく LLM によるアプローチは適切な条件下で有望な結果をもたらすことを示す。
提案手法では,4年生,8年生,12年生の「教室」をシミュレートする。
我々は,これらのシミュレーションの結果を項目応答理論(IRT)モデルに適合させ,学習難易度パラメータと現実の難易度パラメータを比較した。
我々は,4級,8級,12級の相関関係を0.75,0.76,0.82まで観測した。
シミュレーションでは、計算サイズと精度のトレードオフを示す「クラスルームサイズ」の異なる実験を行った。
名前付き学生のロールプレイは、(学生IDと比較して)予測を改善し、性別や人種の階層化は予測をさらに改善する。
以上の結果から,比較的弱い数学的能力(Gemma)を持つLLMは,数学的に強いモデル(Llama,Qwen)よりも現実の難易度予測が優れていることが示唆された。
関連論文リスト
- Estimating problem difficulty without ground truth using Large Language Model comparisons [4.599673637363014]
そこで本研究では,LLMとLLMを比較し,問題の難易度を推定する手法を提案する。
LLMはペアの難易度比較を行い、Bradley-Terryスコアは結果に基づいて計算される。
我々の研究は、時間を要する人間のアノテーションと合成データ生成を置き換えるための重要なステップである。
論文 参考訳(メタデータ) (2025-12-16T09:13:56Z) - SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。
現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。
シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2025-10-20T13:14:38Z) - Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension? [8.558834738072363]
大規模言語モデル (LLMs) は、知能学習システム (ITSs) の開発において、代用学生としての利用が増えている。
我々は,4,8,12の数学と読解に関する全国教育進歩評価(NAEP)から,489項目のデータセットを収集した。
本研究では,11種類の多種多様かつ最先端のLLMを実生と同じ能力尺度に位置づけるために,IRTモデルを適用した。
論文 参考訳(メタデータ) (2025-07-11T00:36:57Z) - SMART: Simulated Students Aligned with Item Response Theory for Question Difficulty Prediction [38.7828715471869]
本稿では、シミュレーションされた学生を指導力で整列させる新しい方法SMART(Simulated Students Aligned with IRT)を提案する。
SMARTは、その改善された能力アライメントを活用することで、他の項目の難易度予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-07T15:41:38Z) - Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms [0.0]
フィールドテストによるアイテムの難易度の推定は、しばしばリソース集約的で時間を要する。
本研究は,大言語モデル(LLM)を用いて,K-5数学および読解評価項目の項目難易度を予測することの実現可能性について検討する。
論文 参考訳(メタデータ) (2025-04-09T00:04:07Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。