Fugu-MT 論文翻訳(概要): Evaluating 21st-Century Competencies in Postsecondary Curricula with Large Language Models: Performance Benchmarking and Reasoning-Based Prompting Strategies

論文の概要: Evaluating 21st-Century Competencies in Postsecondary Curricula with Large Language Models: Performance Benchmarking and Reasoning-Based Prompting Strategies

arxiv url: http://arxiv.org/abs/2601.10983v1
Date: Fri, 16 Jan 2026 04:07:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-19 20:21:50.352171
Title: Evaluating 21st-Century Competencies in Postsecondary Curricula with Large Language Models: Performance Benchmarking and Reasoning-Based Prompting Strategies
Title（参考訳）: 大規模言語モデルを用いた後2次カリキュラムにおける21世紀的能力の評価:パフォーマンスベンチマークと推論に基づくプロンプト戦略
Authors: Zhen Xu, Xin Guan, Chenxi Shi, Qinhao Chen, Renzhe Yu,
Abstract要約: 我々は、幅広いカリキュラム文書、能力フレームワーク、モデルを調べることで、以前のカリキュラム分析研究を拡張した。カリキュラムのアライメントスコアを手動で7,600点を用いて評価した。我々はLLMの教育的推論を強化するための推論に基づくプロンプト戦略であるCurricular CoTを導入する。
参考スコア（独自算出の注目度）: 6.934935343001595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing emphasis on 21st-century competencies in postsecondary education, intensified by the transformative impact of generative AI, underscores the need to evaluate how these competencies are embedded in curricula and how effectively academic programs align with evolving workforce and societal demands. Curricular Analytics, particularly recent generative AI-powered approaches, offer a promising data-driven pathway. However, analyzing 21st-century competencies requires pedagogical reasoning beyond surface-level information retrieval, and the capabilities of large language models in this context remain underexplored. In this study, we extend prior curricular analytics research by examining a broader range of curriculum documents, competency frameworks, and models. Using 7,600 manually annotated curriculum-competency alignment scores, we assess the informativeness of different curriculum sources, benchmark general-purpose LLMs for curriculum-to-competency mapping, and analyze error patterns. We further introduce a reasoning-based prompting strategy, Curricular CoT, to strengthen LLMs' pedagogical reasoning. Our results show that detailed instructional activity descriptions are the most informative type of curriculum document for competency analytics. Open-weight LLMs achieve accuracy comparable to proprietary models on coarse-grained tasks, demonstrating their scalability and cost-effectiveness for institutional use. However, no model reaches human-level precision in fine-grained pedagogical reasoning. Our proposed Curricular CoT yields modest improvements by reducing bias in instructional keyword inference and improving the detection of nuanced pedagogical evidence in long text. Together, these findings highlight the untapped potential of institutional curriculum documents and provide an empirical foundation for advancing AI-driven curricular analytics.
Abstract（参考訳）: ポストセカンダリー教育における21世紀の能力の強調は、生成的AIの変革的な影響によって強調され、これらの能力がどのようにカリキュラムに埋め込まれているか、そして、学術的なプログラムが、進化する労働力や社会的要求とどのように一致しているかを評価する必要性を強調している。 Curricular Analytics、特に最近の生成AIによるアプローチは、有望なデータ駆動の経路を提供する。しかしながら、21世紀の能力の分析には、表面レベルの情報検索以上の教育的推論が必要であり、この文脈における大規模言語モデルの能力は未解明のままである。本研究では,より広範なカリキュラム文書,能力フレームワーク,モデルについて検討することにより,以前のカリキュラム分析研究を拡張した。 7600点の注釈付きカリキュラム・コンピテンシー・アライメントスコアを用いて,カリキュラム・トゥ・コンピテンシー・マッピングのための汎用LCMのベンチマーク,エラーパターンの解析を行った。さらに、LLMの教育的推論を強化するための推論に基づくプロンプト戦略であるCurricular CoTを導入する。以上の結果から, 詳細な授業活動記述は, 能力分析のためのカリキュラム資料として最も有意義なものであることがわかった。オープンウェイトLSMは、粗いタスクのプロプライエタリなモデルに匹敵する精度を達成し、そのスケーラビリティと施設利用のコスト効率を実証する。しかし、微粒な教育的推論において人間レベルの精度に達するモデルはない。提案したCurricular CoTは,命令キーワード推論のバイアスを低減し,長文におけるニュアンス付き教育的エビデンスの検出を改善することで,質素な改善をもたらす。これらの知見は、機関のカリキュラム文書の未完成の可能性を浮き彫りにして、AI駆動のカリキュラム分析を促進するための実証的な基盤を提供する。

関連論文リスト

Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays [15.895792302323883]
教育の文脈では、教師と学習者は解釈可能な特性レベルのフィードバックを必要とする。本稿では,2つの相補的モデリングパラダイムを用いた特徴量に基づく自動弁別評価手法について検討する。スコア・オーディナリティを明示的にモデル化することは、人間のレーダとの合意を著しく改善することを示します。
論文参考訳（メタデータ） (2026-02-04T14:30:52Z)
Analytical Survey of Learning with Low-Resource Data: From Analysis to Investigation [192.53529928861818]
高リソースデータによる学習は人工知能(AI)において大きな成功を収めたしかし、データアノテーションやモデルトレーニングに関連するコストは依然として大きい。本調査では,低リソースデータからの学習に伴う一般化誤差とラベル複雑性を分析するために,アクティブサンプリング理論を用いた。
論文参考訳（メタデータ） (2025-10-10T03:15:42Z)
From Course to Skill: Evaluating LLM Performance in Curricular Analytics [2.5104969073405976]
大規模言語モデル(LLM)は、大規模で非構造化のカリキュラムデータを扱うことを約束している。我々は,LLMや従来のNLP法に基づく4つのテキストアライメント戦略を体系的に評価した。本研究は, 簡潔かつ抽象的なカリキュラム文書の分析において, LLMsが持つ可能性を明らかにするとともに, その性能がモデル選択やプロンプト戦略に大きく依存することを明らかにする。
論文参考訳（メタデータ） (2025-05-05T02:46:23Z)
EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文参考訳（メタデータ） (2025-04-21T07:48:20Z)
An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文参考訳（メタデータ） (2025-02-25T03:40:36Z)
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。 285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文参考訳（メタデータ） (2025-02-20T17:05:58Z)
A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-29T19:32:43Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文参考訳（メタデータ） (2023-10-09T11:45:59Z)
Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。 AMPLIFYは,幅広いタスクに対して約10～25%の精度向上を実現している。
論文参考訳（メタデータ） (2023-05-19T04:46:04Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。