Fugu-MT 論文翻訳(概要): Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

論文の概要: Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

arxiv url: http://arxiv.org/abs/2512.18880v1
Date: Sun, 21 Dec 2025 20:41:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-23 18:54:32.541111
Title: Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
Title（参考訳）: LLMは学生のゆらぎを推定できるか? 項目不備予測のための熟練度シミュレーションによる人間とAIの難易度アライメント
Authors: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou,
Abstract要約: 本稿では,多様な領域にまたがる20以上のモデルに対して,人間とAIの難易度を大規模に解析する。以上の結果から,モデルサイズのスケールアップが確実でない体系的不整合が明らかとなった。モデルが生徒の能力制限をシミュレートするのに苦労しているため,高い性能が正確な難易度推定を妨げている場合が多い。
参考スコア（独自算出の注目度）: 26.396483988509956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.
Abstract（参考訳）: 項目(探究や課題)の難易度を正確に推定することは教育評価において重要であるが、コールドスタートの問題に悩まされている。大規模言語モデルは超人的問題解決能力を示しているが、人間の学習者の認知的苦難を認識できるかどうかには疑問が残る。本研究では,医学知識や数学的推論など,多種多様な領域にまたがる20以上のモデルに対して,人間とAIの難易度を大規模に分析する。モデルのサイズを拡大することは、人間と協調するのではなく、共有マシンのコンセンサスに収束する。モデルでは,特定の習熟度を明示的に導入するよう促された場合でも,生徒の能力制限をシミュレートするのに苦労するため,高い性能が正確な難易度推定を妨げている場合が多い。さらに、モデルが自身の制限を予測できないため、イントロスペクションの重大な欠如を特定する。これらの結果は、一般的な問題解決能力が人間の認知障害の理解を示唆するものではないことを示唆し、現在のモデルを用いた自動難易度予測の課題を浮き彫りにしている。

関連論文リスト

MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文参考訳（メタデータ） (2026-02-02T18:49:06Z)
Large Language Models as Students Who Think Aloud: Overly Coherent, Verbose, and Confident [0.8564319625930894]
大規模言語モデル(LLM)は、AIベースの学習システムにますます組み込まれている。彼らは、初心者の推論とメタ認知的判断を忠実にモデル化できるだろうか? 学生のヒント使用,試行,問題文脈の問題解決ログを用いた化学チュータリング問題からの630のシンクアラウド発話を用いて,LSMを初心者として評価した。そこで本研究では,LLM生成推論と人間の学習者発話を,最小限で拡張された文脈的プロンプトで比較し,ステップレベルの学習者成功を予測するモデルの能力を評価する。
論文参考訳（メタデータ） (2026-02-01T04:46:38Z)
From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。 AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文参考訳（メタデータ） (2026-01-30T14:56:04Z)
Four Quadrants of Difficulty: A Simple Categorisation and its Limits [4.304007567113229]
そこで我々は,困難信号の4つの四分法分類,すなわち人間対モデル,タスクに依存しない対タスク依存の分類を提案する。タスクに依存しない機能はほとんど独立して振る舞うことができ、タスクに依存した機能だけが整合していることが分かりました。これらの知見は、一般的なカリキュラム学習の直観に挑戦し、軽量でタスク依存の難易度推定器の必要性を強調している。
論文参考訳（メタデータ） (2026-01-04T11:31:51Z)
Vibe Reasoning: Eliciting Frontier AI Mathematical Capabilities -- A Case Study on IMO 2025 Problem 6 [28.84243696489176]
本稿では,複雑な数学的問題を解くための人間-AI協調パラダイムであるVibe Reasoningを紹介する。我々は、自律型AIシステムが障害を公に報告する最適化問題であるIMO 2025 Problem 6を通して、このパラダイムを実証する。
論文参考訳（メタデータ） (2025-12-22T11:30:19Z)
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文参考訳（メタデータ） (2025-04-17T22:16:30Z)
Exploring the Potential of Large Language Models for Estimating the Reading Comprehension Question Difficulty [2.335292678914151]
本研究では,Large Language Models (LLMs) の有効性を検討した。また,OpenAI の GPT-4o と o1 を用いて,学習支援・読解評価 (SARA) データセットを用いた理解的質問の読解の難しさを推定する。その結果, モデルがIRTパラメータと有意に一致した難易度推定値を生成する一方で, 極端項目特性に対する感度に顕著な差があることが示唆された。
論文参考訳（メタデータ） (2025-02-25T02:28:48Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Are You Doubtful? Oh, It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation [12.638577140117702]
本研究では,不確実性の特徴が難易度予測に大きく寄与することを示し,難易度は質問に正しく答えられる学生数に逆比例することを示した。このアプローチの価値を示すことに加えて,USMLEとCMCQRDの公開データセット上で,我々のモデルが最先端の結果を達成することも観察した。
論文参考訳（メタデータ） (2024-12-16T14:55:09Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文参考訳（メタデータ） (2023-11-16T08:52:27Z)
The Generative AI Paradox: "What It Can Create, It May Not Understand" [81.89252713236746]
生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
論文参考訳（メタデータ） (2023-10-31T18:07:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。