論文の概要: Evaluating 21st-Century Competencies in Postsecondary Curricula with Large Language Models: Performance Benchmarking and Reasoning-Based Prompting Strategies
- arxiv url: http://arxiv.org/abs/2601.10983v1
- Date: Fri, 16 Jan 2026 04:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.352171
- Title: Evaluating 21st-Century Competencies in Postsecondary Curricula with Large Language Models: Performance Benchmarking and Reasoning-Based Prompting Strategies
- Title(参考訳): 大規模言語モデルを用いた後2次カリキュラムにおける21世紀的能力の評価:パフォーマンスベンチマークと推論に基づくプロンプト戦略
- Authors: Zhen Xu, Xin Guan, Chenxi Shi, Qinhao Chen, Renzhe Yu,
- Abstract要約: 我々は、幅広いカリキュラム文書、能力フレームワーク、モデルを調べることで、以前のカリキュラム分析研究を拡張した。
カリキュラムのアライメントスコアを手動で7,600点を用いて評価した。
我々はLLMの教育的推論を強化するための推論に基づくプロンプト戦略であるCurricular CoTを導入する。
- 参考スコア(独自算出の注目度): 6.934935343001595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing emphasis on 21st-century competencies in postsecondary education, intensified by the transformative impact of generative AI, underscores the need to evaluate how these competencies are embedded in curricula and how effectively academic programs align with evolving workforce and societal demands. Curricular Analytics, particularly recent generative AI-powered approaches, offer a promising data-driven pathway. However, analyzing 21st-century competencies requires pedagogical reasoning beyond surface-level information retrieval, and the capabilities of large language models in this context remain underexplored. In this study, we extend prior curricular analytics research by examining a broader range of curriculum documents, competency frameworks, and models. Using 7,600 manually annotated curriculum-competency alignment scores, we assess the informativeness of different curriculum sources, benchmark general-purpose LLMs for curriculum-to-competency mapping, and analyze error patterns. We further introduce a reasoning-based prompting strategy, Curricular CoT, to strengthen LLMs' pedagogical reasoning. Our results show that detailed instructional activity descriptions are the most informative type of curriculum document for competency analytics. Open-weight LLMs achieve accuracy comparable to proprietary models on coarse-grained tasks, demonstrating their scalability and cost-effectiveness for institutional use. However, no model reaches human-level precision in fine-grained pedagogical reasoning. Our proposed Curricular CoT yields modest improvements by reducing bias in instructional keyword inference and improving the detection of nuanced pedagogical evidence in long text. Together, these findings highlight the untapped potential of institutional curriculum documents and provide an empirical foundation for advancing AI-driven curricular analytics.
- Abstract(参考訳): ポストセカンダリー教育における21世紀の能力の強調は、生成的AIの変革的な影響によって強調され、これらの能力がどのようにカリキュラムに埋め込まれているか、そして、学術的なプログラムが、進化する労働力や社会的要求とどのように一致しているかを評価する必要性を強調している。
Curricular Analytics、特に最近の生成AIによるアプローチは、有望なデータ駆動の経路を提供する。
しかしながら、21世紀の能力の分析には、表面レベルの情報検索以上の教育的推論が必要であり、この文脈における大規模言語モデルの能力は未解明のままである。
本研究では,より広範なカリキュラム文書,能力フレームワーク,モデルについて検討することにより,以前のカリキュラム分析研究を拡張した。
7600点の注釈付きカリキュラム・コンピテンシー・アライメントスコアを用いて,カリキュラム・トゥ・コンピテンシー・マッピングのための汎用LCMのベンチマーク,エラーパターンの解析を行った。
さらに、LLMの教育的推論を強化するための推論に基づくプロンプト戦略であるCurricular CoTを導入する。
以上の結果から, 詳細な授業活動記述は, 能力分析のためのカリキュラム資料として最も有意義なものであることがわかった。
オープンウェイトLSMは、粗いタスクのプロプライエタリなモデルに匹敵する精度を達成し、そのスケーラビリティと施設利用のコスト効率を実証する。
しかし、微粒な教育的推論において人間レベルの精度に達するモデルはない。
提案したCurricular CoTは,命令キーワード推論のバイアスを低減し,長文におけるニュアンス付き教育的エビデンスの検出を改善することで,質素な改善をもたらす。
これらの知見は、機関のカリキュラム文書の未完成の可能性を浮き彫りにして、AI駆動のカリキュラム分析を促進するための実証的な基盤を提供する。
関連論文リスト
- EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文 参考訳(メタデータ) (2025-04-21T07:48:20Z) - An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。
本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。
我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-25T03:40:36Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。