論文の概要: Scalable Classification of Course Information Sheets Using Large Language Models: A Reusable Institutional Method for Academic Quality Assurance
- arxiv url: http://arxiv.org/abs/2603.13562v1
- Date: Fri, 13 Mar 2026 19:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.275052
- Title: Scalable Classification of Course Information Sheets Using Large Language Models: A Reusable Institutional Method for Academic Quality Assurance
- Title(参考訳): 大規模言語モデルを用いた授業情報シートのスケーラブルな分類:学術的品質保証のための再利用可能な制度的方法
- Authors: Brecht Verbeken, Joke Van den Broeck, Inge De Cleyn, Steven Van Luchene, Nadine Engels, Andres Algaba, Vincent Ginis,
- Abstract要約: 高等教育機関は、ジェネレーティブAI(GenAI)統合のためのコース設計を監査する圧力が高まっている。
本稿では,大規模言語モデル(LLM)を用いてコース情報シートを大規模にスキャンするエンド・ツー・エンド手法を提案する。
- 参考スコア(独自算出の注目度): 3.706350695479005
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Purpose: Higher education institutions face increasing pressure to audit course designs for generative AI (GenAI) integration. This paper presents an end-to-end method for using large language models (LLMs) to scan course information sheets at scale, identify where assessments may be vulnerable to student use of GenAI tools, validate system performance through iterative refinement, and operationalise results through direct stakeholder communication and effort. Method: We developed a four-phase pipeline: (0) manual pilot sampling, (1) iterative prompt engineering with multi-model comparison, (2) full production scan of 4,684 Bachelor and Master course information sheets (Academic Year 2024-2025) from the Vrije Universiteit Brussel (VUB) with automated report generation and email distribution to teaching teams (91.4% address-matched) using a three-tier risk taxonomy (Clear risk, Potential risk, Low risk), and (3) longitudinal re-scan of 4,675 sheets after the next catalogue release. Results: Five iterations of prompt refinement achieved 87% agreement with expert labels. GPT-4o was selected for production based on superior handling of ambiguous cases involving internships and practical components. The Year 1 scan classified 60.3% of courses as Clear risk, 15.2% as Potential risk, and 24.5% as Low risk. Year 2 comparison revealed substantial shifts in risk distributions, with improvements most pronounced in practice-oriented programmes. Implications: The method enables institutions to rapidly transform heterogeneous catalogue data into structured and actionable intelligence. The approach is transferable to other audit domains (sustainability, accessibility, pedagogical alignment) and provides a template for responsible LLM deployment in higher education governance.
- Abstract(参考訳): 目的:高等教育機関は、ジェネレーティブAI(GenAI)統合のための講座設計の監査を迫られる。
本稿では,大規模言語モデル(LLM)を用いて大規模コース情報シートをスキャンし,GenAIツールの学生利用に脆弱な場所を特定し,反復的改善によるシステム性能の検証を行い,直接利害関係者のコミュニケーションや努力を通じて結果を運用する手法を提案する。
方法: (0) 手動パイロット・サンプリング, (1) 多モデル比較による反復的プロンプト・エンジニアリング, (2) Vrije Universityversiteit Brussel (VUB) の4,684 Bachelor and Master course information sheets (学術年度2024-2025) のフル生産スキャン, 3層リスク分類法 (Clear risk, potential risk, Low risk) を用いた自動レポート生成とEメール配布 (91.4%アドレスマッチング) による教育チームへの3層リスク分類法 (Clear risk, potential risk, Low risk) , (3) の長期再スキャン (4,675シート) を開発した。
結果: プロンプトリファインメントの5回のイテレーションは、専門家のラベルと87%の合意に達した。
GPT-4oは、インターンシップと実用的コンポーネントを含む曖昧なケースの優れたハンドリングに基づいて、生産のために選択された。
年1スキャンでは、コースの60.3%が明確なリスク、15.2%が潜在的なリスク、24.5%が低いリスクと分類された。
2年目の比較では、リスク分布が大きく変化し、実践指向のプログラムで最も顕著な改善が見られた。
インプリケーション: この手法は、異種カタログデータを構造化され実行可能なインテリジェンスに迅速に変換することを可能にする。
このアプローチは、他の監査ドメイン(持続可能性、アクセシビリティ、教育的アライメント)に転送可能であり、高等教育ガバナンスにおけるLCMの展開に責任を負うためのテンプレートを提供する。
関連論文リスト
- AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models [48.9044202022435]
大きな言語モデル(LLM)は印象的な能力を示すだけでなく、バイアスのあるコンテンツ生成やプライバシの問題といったリスクも提示する。
現在のアライメント手法の1つは原則駆動の統合であるが、手作業によるルールの不正確さに起因する課題に直面している。
これらの課題に対処するための2段階のアプローチである Guide-Align を紹介します。
論文 参考訳(メタデータ) (2024-03-18T14:48:29Z) - Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR)
CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。
我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文 参考訳(メタデータ) (2024-02-28T09:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。