論文の概要: ZPD-SCA: Unveiling the Blind Spots of LLMs in Assessing Students' Cognitive Abilities
- arxiv url: http://arxiv.org/abs/2508.14377v1
- Date: Wed, 20 Aug 2025 03:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.32174
- Title: ZPD-SCA: Unveiling the Blind Spots of LLMs in Assessing Students' Cognitive Abilities
- Title(参考訳): ZPD-SCA:学生の認知能力評価におけるLCMの盲点の発見
- Authors: Wenhan Dong, Zhen Sun, Yuemeng Zhao, Zifan Peng, Jun Wu, Jingyi Zheng, Yule Liu, Xinlei He, Yu Wang, Ruiming Wang, Xinyi Huang, Lei Mo,
- Abstract要約: 大規模言語モデル(LLM)は、教育応用の可能性を示しているが、読み物の認知的アライメントを正確に評価する能力は、まだ十分に研究されていない。
ステージレベルの中国語読解難易度を評価するための新しいベンチマークであるZPD-SCAを紹介する。
実験の結果,LLMはゼロショット学習のシナリオでは不十分であり,Qwen-max と GLM はランダムな推測の確率よりも低い値を示した。
- 参考スコア(独自算出の注目度): 22.46428435261336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated potential in educational applications, yet their capacity to accurately assess the cognitive alignment of reading materials with students' developmental stages remains insufficiently explored. This gap is particularly critical given the foundational educational principle of the Zone of Proximal Development (ZPD), which emphasizes the need to match learning resources with Students' Cognitive Abilities (SCA). Despite the importance of this alignment, there is a notable absence of comprehensive studies investigating LLMs' ability to evaluate reading comprehension difficulty across different student age groups, especially in the context of Chinese language education. To fill this gap, we introduce ZPD-SCA, a novel benchmark specifically designed to assess stage-level Chinese reading comprehension difficulty. The benchmark is annotated by 60 Special Grade teachers, a group that represents the top 0.15% of all in-service teachers nationwide. Experimental results reveal that LLMs perform poorly in zero-shot learning scenarios, with Qwen-max and GLM even falling below the probability of random guessing. When provided with in-context examples, LLMs performance improves substantially, with some models achieving nearly double the accuracy of their zero-shot baselines. These results reveal that LLMs possess emerging abilities to assess reading difficulty, while also exposing limitations in their current training for educationally aligned judgment. Notably, even the best-performing models display systematic directional biases, suggesting difficulties in accurately aligning material difficulty with SCA. Furthermore, significant variations in model performance across different genres underscore the complexity of task. We envision that ZPD-SCA can provide a foundation for evaluating and improving LLMs in cognitively aligned educational applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育応用の可能性を示しているが、学習者の発達段階と読み物の認知的アライメントを正確に評価する能力は、まだ十分に調査されていない。
このギャップは、学生の認知能力(SCA)と学習資源を一致させる必要性を強調するZPD(Zone of Proximal Development)の基礎的な教育原理から、特に重要である。
このアライメントの重要性にもかかわらず、特に中国語教育の文脈において、異なる年齢層における読解難読度を評価するLLMの能力に関する総合的な研究が欠如している。
このギャップを埋めるために、ステージレベルの中国語読解難度を評価するための新しいベンチマークであるZPD-SCAを導入する。
このベンチマークには60人の特別級教員が注釈を付けており、全国のサービス内教師の0.15%を占めている。
実験の結果,LLMはゼロショット学習のシナリオでは不十分であり,Qwen-max と GLM はランダムな推測の確率よりも低い値を示した。
文脈内サンプルが提供されると、LLMの性能は大幅に改善され、いくつかのモデルはゼロショットベースラインの精度をほぼ2倍に向上する。
これらの結果から,LLMは読解難易度を評価する能力の発達とともに,教育的に整合した判断のための現在の訓練の限界も明らかにした。
特に、最高のパフォーマンスモデルでさえ体系的な指向性バイアスを示しており、SCAと材料難易度を正確に整合させることの難しさを示唆している。
さらに、様々なジャンルにわたるモデルパフォーマンスの顕著な変化は、タスクの複雑さを浮き彫りにしている。
我々は,ZPD-SCAが認知に整合した教育アプリケーションにおけるLCMの評価と改善の基盤となることを期待する。
関連論文リスト
- Leveraging Prompts in LLMs to Overcome Imbalances in Complex Educational Text Data [1.8280573037181356]
本稿では,Large Language Models (LLMs) の可能性を探究する。
この問題は、学生の認知的エンゲージメントレベルがオープンな反応に有意な変化を示す教育分野において特に顕著である。
論文 参考訳(メタデータ) (2024-04-28T00:24:08Z) - CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs [27.362012903540492]
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。