論文の概要: Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
- arxiv url: http://arxiv.org/abs/2512.18880v1
- Date: Sun, 21 Dec 2025 20:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.541111
- Title: Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
- Title(参考訳): LLMは学生のゆらぎを推定できるか? 項目不備予測のための熟練度シミュレーションによる人間とAIの難易度アライメント
- Authors: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou,
- Abstract要約: 本稿では,多様な領域にまたがる20以上のモデルに対して,人間とAIの難易度を大規模に解析する。
以上の結果から,モデルサイズのスケールアップが確実でない体系的不整合が明らかとなった。
モデルが生徒の能力制限をシミュレートするのに苦労しているため,高い性能が正確な難易度推定を妨げている場合が多い。
- 参考スコア(独自算出の注目度): 26.396483988509956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.
- Abstract(参考訳): 項目(探究や課題)の難易度を正確に推定することは教育評価において重要であるが、コールドスタートの問題に悩まされている。
大規模言語モデルは超人的問題解決能力を示しているが、人間の学習者の認知的苦難を認識できるかどうかには疑問が残る。
本研究では,医学知識や数学的推論など,多種多様な領域にまたがる20以上のモデルに対して,人間とAIの難易度を大規模に分析する。
モデルのサイズを拡大することは、人間と協調するのではなく、共有マシンのコンセンサスに収束する。
モデルでは,特定の習熟度を明示的に導入するよう促された場合でも,生徒の能力制限をシミュレートするのに苦労するため,高い性能が正確な難易度推定を妨げている場合が多い。
さらに、モデルが自身の制限を予測できないため、イントロスペクションの重大な欠如を特定する。
これらの結果は、一般的な問題解決能力が人間の認知障害の理解を示唆するものではないことを示唆し、現在のモデルを用いた自動難易度予測の課題を浮き彫りにしている。
関連論文リスト
- Vibe Reasoning: Eliciting Frontier AI Mathematical Capabilities -- A Case Study on IMO 2025 Problem 6 [28.84243696489176]
本稿では,複雑な数学的問題を解くための人間-AI協調パラダイムであるVibe Reasoningを紹介する。
我々は、自律型AIシステムが障害を公に報告する最適化問題であるIMO 2025 Problem 6を通して、このパラダイムを実証する。
論文 参考訳(メタデータ) (2025-12-22T11:30:19Z) - THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - Exploring the Potential of Large Language Models for Estimating the Reading Comprehension Question Difficulty [2.335292678914151]
本研究では,Large Language Models (LLMs) の有効性を検討した。
また,OpenAI の GPT-4o と o1 を用いて,学習支援・読解評価 (SARA) データセットを用いた理解的質問の読解の難しさを推定する。
その結果, モデルがIRTパラメータと有意に一致した難易度推定値を生成する一方で, 極端項目特性に対する感度に顕著な差があることが示唆された。
論文 参考訳(メタデータ) (2025-02-25T02:28:48Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Are You Doubtful? Oh, It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation [12.638577140117702]
本研究では,不確実性の特徴が難易度予測に大きく寄与することを示し,難易度は質問に正しく答えられる学生数に逆比例することを示した。
このアプローチの価値を示すことに加えて,USMLEとCMCQRDの公開データセット上で,我々のモデルが最先端の結果を達成することも観察した。
論文 参考訳(メタデータ) (2024-12-16T14:55:09Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - The Generative AI Paradox: "What It Can Create, It May Not Understand" [81.89252713236746]
生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。
同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。
一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
論文 参考訳(メタデータ) (2023-10-31T18:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。