論文の概要: Problems With Large Language Models for Learner Modelling: Why LLMs Alone Fall Short for Responsible Tutoring in K--12 Education
- arxiv url: http://arxiv.org/abs/2512.23036v1
- Date: Sun, 28 Dec 2025 18:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.33573
- Title: Problems With Large Language Models for Learner Modelling: Why LLMs Alone Fall Short for Responsible Tutoring in K--12 Education
- Title(参考訳): 学習者モデリングのための大規模言語モデルの問題--K--12教育における責任学習にLLMが欠落する理由
- Authors: Danial Hooshyar, Yeongwook Yang, Gustav Šíř, Tommi Kärkkäinen, Raija Hämäläinen, Mutlu Cukurova, Roger Azevedo,
- Abstract要約: K--12教育における大規模言語モデル(LLM)ベースのチューターの急速な増加は、生成モデルが適応的指導のために従来の学習者モデルを置き換えることができるという誤解を引き起こしている。
本研究は,LLMに基づく教師の限界に関する証拠を合成し,学習者の時間とともに進化する知識を評価するための正確性,信頼性,時間的コヒーレンスという1つの重要な問題を実証的に研究する。
- 参考スコア(独自算出の注目度): 4.658972861389497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid rise of large language model (LLM)-based tutors in K--12 education has fostered a misconception that generative models can replace traditional learner modelling for adaptive instruction. This is especially problematic in K--12 settings, which the EU AI Act classifies as high-risk domain requiring responsible design. Motivated by these concerns, this study synthesises evidence on limitations of LLM-based tutors and empirically investigates one critical issue: the accuracy, reliability, and temporal coherence of assessing learners' evolving knowledge over time. We compare a deep knowledge tracing (DKT) model with a widely used LLM, evaluated zero-shot and fine-tuned, using a large open-access dataset. Results show that DKT achieves the highest discrimination performance (AUC = 0.83) on next-step correctness prediction and consistently outperforms the LLM across settings. Although fine-tuning improves the LLM's AUC by approximately 8\% over the zero-shot baseline, it remains 6\% below DKT and produces higher early-sequence errors, where incorrect predictions are most harmful for adaptive support. Temporal analyses further reveal that DKT maintains stable, directionally correct mastery updates, whereas LLM variants exhibit substantial temporal weaknesses, including inconsistent and wrong-direction updates. These limitations persist despite the fine-tuned LLM requiring nearly 198 hours of high-compute training, far exceeding the computational demands of DKT. Our qualitative analysis of multi-skill mastery estimation further shows that, even after fine-tuning, the LLM produced inconsistent mastery trajectories, while DKT maintained smooth and coherent updates. Overall, the findings suggest that LLMs alone are unlikely to match the effectiveness of established intelligent tutoring systems, and that responsible tutoring requires hybrid frameworks that incorporate learner modelling.
- Abstract(参考訳): K--12教育における大規模言語モデル(LLM)ベースのチューターの急速な増加は、生成モデルが適応的指導のために伝統的な学習者モデリングを置き換えることができるという誤解を引き起こしている。これは、特にK--12設定において問題であり、EU AI Actは、責任ある設計を必要とするハイリスクドメインとして分類している。
これらの懸念に乗じて、本研究では、LLMベースの教師の限界に関する証拠を合成し、学習者の時間とともに進化する知識を評価するための正確性、信頼性、時間的コヒーレンスという1つの重要な問題を経験的に調査する。
我々は、大規模なオープンアクセスデータセットを用いて、Deep Knowledge Trace (DKT)モデルと広く使われているLLMを比較し、ゼロショットと微調整を評価した。
その結果、DKTは次のステップの正当性予測において最高識別性能(AUC = 0.83)を達成し、設定間でLLMを一貫して上回っていることがわかった。
微調整は、ゼロショットベースラインよりも約8\%改善するが、DKTより6\%低いままであり、誤り予測が適応サポートに最も有害な早期シーケンスエラーを発生させる。
時間的分析により、DKTは安定的で、方向的に正しいマスタリ更新を維持しているのに対し、LLMの変種は、一貫性のない、誤った方向更新を含む、相当な時間的弱点を示すことが明らかになった。
これらの制限は、DKTの計算要求をはるかに超え、198時間近い高速な訓練を必要とする微調整 LLM にもかかわらず継続した。
マルチスキル・マスタリ推定の質的分析により, 微調整後においてもLLMは無矛盾なマスタリトラジェクトリを生成し, DKTはスムーズかつ一貫性のある更新を維持した。
全体として、LSMだけでは、確立されたインテリジェント・チュータリング・システムの有効性に合わないことが示唆され、責任あるチュータリングには学習者モデリングを取り入れたハイブリッド・フレームワークが必要である。
関連論文リスト
- LLM-CAS: Dynamic Neuron Perturbation for Real-Time Hallucination Correction [11.5874975353231]
大規模言語モデル(LLM)は、事実的あるいは文脈的基盤を持たない幻覚的コンテンツを生成することが多い。
階層的強化学習問題としてリアルタイム補正を定式化する LLM-CAS を提案する。
論文 参考訳(メタデータ) (2025-12-21T06:54:34Z) - Revisiting LLMs as Zero-Shot Time-Series Forecasters: Small Noise Can Break Large Models [32.30528039193554]
大規模言語モデル(LLM)は、ドメイン固有のトレーニングなしで、様々なタスクにまたがる顕著なパフォーマンスを示している。
近年の研究では、LLMは予測に固有の効果を欠いていることが示唆されている。
実験の結果,LLMベースのゼロショット予測器はノイズに敏感なため,高い精度を達成するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-31T08:24:01Z) - Towards Objective Fine-tuning: How LLMs' Prior Knowledge Causes Potential Poor Calibration? [19.38577744626441]
大規模言語モデル(LLM)は、信頼度スコアが実際のパフォーマンスと不一致であるようなキャリブレーションが低いことを示すことが多い。
我々の研究は、LLMの事前の知識が、実世界の微調整において既知のデータがユビキタスに存在するため、キャリブレーションの可能性が低いことを明らかにしている。
モデルの事前知識に基づいて,対象とする学習戦略を適用する認知認識フレームワークであるCogCalibを提案する。
論文 参考訳(メタデータ) (2025-05-27T08:51:31Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Pareto Optimal Learning for Estimating Large Language Model Errors [12.21899680905672]
大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。
複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。