論文の概要: From Course to Skill: Evaluating LLM Performance in Curricular Analytics
- arxiv url: http://arxiv.org/abs/2505.02324v1
- Date: Mon, 05 May 2025 02:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.546987
- Title: From Course to Skill: Evaluating LLM Performance in Curricular Analytics
- Title(参考訳): コースからスキルへ:カリキュラム分析におけるLLM性能の評価
- Authors: Zhen Xu, Xinjin Li, Yingqi Huan, Veronica Minaya, Renzhe Yu,
- Abstract要約: 大規模言語モデル(LLM)は、大規模で非構造化のカリキュラムデータを扱うことを約束している。
我々は,LLMや従来のNLP法に基づく4つのテキストアライメント戦略を体系的に評価した。
本研究は, 簡潔かつ抽象的なカリキュラム文書の分析において, LLMsが持つ可能性を明らかにするとともに, その性能がモデル選択やプロンプト戦略に大きく依存することを明らかにする。
- 参考スコア(独自算出の注目度): 2.5104969073405976
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Curricular analytics (CA) -- systematic analysis of curricula data to inform program and course refinement -- becomes an increasingly valuable tool to help institutions align academic offerings with evolving societal and economic demands. Large language models (LLMs) are promising for handling large-scale, unstructured curriculum data, but it remains uncertain how reliably LLMs can perform CA tasks. In this paper, we systematically evaluate four text alignment strategies based on LLMs or traditional NLP methods for skill extraction, a core task in CA. Using a stratified sample of 400 curriculum documents of different types and a human-LLM collaborative evaluation framework, we find that retrieval-augmented generation (RAG) to be the top-performing strategy across all types of curriculum documents, while zero-shot prompting performs worse than traditional NLP methods in most cases. Our findings highlight the promise of LLMs in analyzing brief and abstract curriculum documents, but also reveal that their performance can vary significantly depending on model selection and prompting strategies. This underscores the importance of carefully evaluating the performance of LLM-based strategies before large-scale deployment.
- Abstract(参考訳): カリキュラム・アナリティクス(CA)は、カリキュラムデータを体系的に分析し、プログラムやコースの洗練を知らせるツールだ。
大規模言語モデル(LLM)は大規模で非構造化のカリキュラムデータを扱うことを約束しているが、LCMがCAタスクを確実に実行できるかは定かではない。
本稿では,LCMや従来のNLP法に基づく4つのテキストアライメント戦略を,CAのコアタスクであるスキル抽出のために体系的に評価する。
異なるタイプの400のカリキュラム文書の階層化サンプルと人間とLLMの協調評価フレームワークを用いて,検索強化世代(RAG)がすべてのカリキュラム文書の中で最も高い性能を示す一方,ゼロショットプロンプトは従来のNLP手法よりも性能が劣ることがわかった。
本研究は, 簡潔かつ抽象的なカリキュラム文書を解析する上で, LLMが持つ可能性を強調しつつ, その性能がモデル選択やプロンプト戦略によって大きく異なることを明らかにする。
このことは、大規模展開の前にLCMベースの戦略の性能を慎重に評価することの重要性を浮き彫りにしている。
関連論文リスト
- From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。
本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。
このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - LLMCL-GEC: Advancing Grammatical Error Correction with LLM-Driven Curriculum Learning [44.010834543396165]
大規模言語モデル(LLM)は、特定の自然言語処理(NLP)タスクにおいて顕著な機能を示した。
しかし、文法的誤り訂正(GEC)のような特定の領域の特殊モデルと比較しても、まだ習熟性に欠ける可能性がある。
論文 参考訳(メタデータ) (2024-12-17T05:09:07Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z) - A Large Language Model Approach to Educational Survey Feedback Analysis [0.0]
本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。
論文 参考訳(メタデータ) (2023-09-29T17:57:23Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。