論文の概要: An NLP-Driven Framework for Curriculum-Labor Market Alignment: Schema-Constrained LLM Extraction, ESCO-Anchored Semantic Matching, and Multi-Dimensional Gap Quantification
- arxiv url: http://arxiv.org/abs/2606.01982v1
- Date: Mon, 01 Jun 2026 09:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.701047
- Title: An NLP-Driven Framework for Curriculum-Labor Market Alignment: Schema-Constrained LLM Extraction, ESCO-Anchored Semantic Matching, and Multi-Dimensional Gap Quantification
- Title(参考訳): NLP-Driven Framework for Curriculum-Labor Market Asignment: Schema-Constrained LLM extract, ESCO-Anchored Semantic Matching, Multi-dimensional Gap Quantification
- Authors: Sherzod Turaev, Mary John, Mamoun Awad, Nazar Zaki, Khaled Shuaib,
- Abstract要約: 既存のパイプラインは、暗黙の能力を取り戻すことができない語彙曲面法に依存している。
本稿では,フロンティア強化7スロット形式を組み込んだ4段階NLPフレームワークを提案する。
このフレームワークは、高等教育品質保証における重要な応用のためにインスタンス化されている。
- 参考スコア(独自算出の注目度): 1.2690075195132626
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Schema-constrained information extraction from diverse educational and labor-market corpora remains an open challenge in natural language processing because existing pipelines rely primarily on lexical-surface methods that cannot recover implicit competencies, lack grounding in shared taxonomies, and provide no formal measures of extraction reliability or document-level completeness. To address these limitations, this paper proposes a four-stage NLP framework that combines (i) schema-constrained prompting of a two-model frontier-LLM ensemble against a JSON Schema-enforced seven-slot competency formalism, (ii) Sentence-BERT (SBERT) alignment of the extracted records against an eleven-domain ESCO v1.2.1 controlled vocabulary, (iii) a two-tier adjudication protocol that resolves inter-model disagreements, and (iv) a verification mechanism that combines per-slot Cohen's kappa, schema conformance, and document-level completeness audits. The framework is instantiated for a critical application in higher-education quality assurance, namely curriculum-labor market alignment for the ABET-accredited BSc Computer Science program at the United Arab Emirates University. The pipeline extracts 400 competency records from the 85-course 2025-2026 study plan and aligns them, under a five-scope analysis ranging from the computing core to a probability-weighted student trajectory, with 30 job postings (483 requirement clauses) at an SBERT cosine threshold of 0.50. The extractor achieves Cohen's kappa of 0.79 on the skill slot, with 100% schema conformance and 100% document-level completeness. The alignment surfaces interpretable supply-demand gaps of 25.0% in general and transversal skills, 13.8% in algorithms and computational theory, and 12.2% in software engineering and project management, with a near-zero 1.8% gap in artificial intelligence and data science despite 38.6% supply coverage.
- Abstract(参考訳): 多様な教育・労働市場コーパスから抽出されるスキーマに制約のある情報は、既存のパイプラインは暗黙の能力を取り戻すことができず、共有分類学の基盤が欠如しており、信頼性や文書レベルの完全性を示す公式な手段を提供していないため、自然言語処理においてオープンな課題である。
これらの制約に対処するために,本稿では,組み合わせた4段階のNLPフレームワークを提案する。
i) JSONスキーマ強化7スロット能力形式に対する2モデルフロンティアLLMアンサンブルのスキーマ制約によるプロンプト。
(ii)11ドメインのESCO v1.2.1制御語彙に対して抽出されたレコードの文-BERT(SBERT)アライメント
三 モデル間不一致を解消する二段階の弁済議定書及び
(iv)スロットごとのCohenのカッパ、スキーマ適合性、ドキュメントレベルの完全性監査を組み合わせた検証メカニズム。
このフレームワークは、高い教育品質保証、すなわちアラブ首長国連邦大学のAbeT認定BScコンピュータサイエンスプログラムのためのカリキュラムとラボの市場アライメントにおいて重要な応用のためにインスタンス化されている。
このパイプラインは85コース2025-2026の研究計画から400の能力記録を抽出し、計算コアから確率重み付けされた学生軌道まで5スコープで分析し、SBERTコサイン閾値0.50で30の求職(483の要件条項)を提示する。
抽出器は、100%スキーマ適合性と100%文書レベルの完全性を備えた、スキルスロット上のコーエンのカッパ0.79を達成する。
アライメントは、一般に25.0%の供給需要ギャップとトランスヴァーサルスキル、13.8%のアルゴリズムと計算理論、12.2%のソフトウェアエンジニアリングとプロジェクト管理、そして38.6%のサプライカバレッジにもかかわらず、人工知能とデータサイエンスのほぼ0.8%のギャップを解釈できる。
関連論文リスト
- Fine-Tuning Over Architectural Complexity: Broad-Coverage PII Detection on PIIBench with DeBERTa [0.0]
PII検出システムは、狭いソースまたはドメイン境界内で頻繁に訓練され、異種テキストにデプロイする場合のカバレッジを制限する。
我々は,10個のソースデータセットに82個の保持されたエンティティタイプにまたがる修正されたマルチソースPIIBenchのモデル微調整について検討した。
直接トークン分類の微調整,ソース条件付き階層モデル(SC+H),3段階のカリキュラム拡張(SC+H+Curr)の3つのアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-25T13:12:42Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - AcademiClaw: When Students Set Challenges for AI Agents [69.70303995121154]
AcademiClaw(アカデミクロー)は、大学生の実際の学術的切断から直接引き出された80の複雑な長い水平タスクのベンチマークである。
最高のモデルでさえ、55%のパスレートしか達成できないことを示す。
AcademiClawとそのオープンソースデータとコードが、OpenClawコミュニティにとって有用なリソースになることを願っています。
論文 参考訳(メタデータ) (2026-05-04T14:40:42Z) - The Productivity-Reliability Paradox: Specification-Driven Governance for AI-Augmented Software Development [0.0]
コントロールされた研究によると、よくスコープされたタスクで生産性が20~56%向上し、最も厳格なRCT文書は経験豊富な開発者にとって19%の減速を報告している。
10,000人以上の開発者を対象としたテレメトリでは、プルリクエストが98%増加したが、フラットなデリバリメトリクスによるレビュー時間が91%長かった。
本稿では,非決定論的コードジェネレータから生じる系統的な現象と,仕様の不十分な規律であるProductivity-Reliability Paradox(PRP)について論じる。
論文 参考訳(メタデータ) (2026-05-01T23:37:50Z) - Scalable Classification of Course Information Sheets Using Large Language Models: A Reusable Institutional Method for Academic Quality Assurance [3.706350695479005]
高等教育機関は、ジェネレーティブAI(GenAI)統合のためのコース設計を監査する圧力が高まっている。
本稿では,大規模言語モデル(LLM)を用いてコース情報シートを大規模にスキャンするエンド・ツー・エンド手法を提案する。
論文 参考訳(メタデータ) (2026-03-13T19:59:08Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Constraint Satisfaction Approaches to Wordle: Novel Heuristics and Cross-Lexicon Validation [0.0]
本稿では, CSP 対応エントロピー, 制約伝搬後の情報ゲイン, 確率的 CSP フレームワークを紹介する。
2,315語の単語を評価することで、CSP-Aware Entropy 3.54の平均推定は99.9%の成功率である。
500のスペイン語の単語に対するクロスレキシコンの検証は、言語固有のチューニングをゼロにすることで88%の成功を示している。
論文 参考訳(メタデータ) (2025-10-03T09:44:14Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Leveraging Discourse Rewards for Document-Level Neural Machine
Translation [46.006636555165414]
我々は,2つの確立された談話指標である語彙凝集(LC)とコヒーレンス(COH)を明示的に最適化する学習手法を提案する。
私たちのトレーニングアプローチは、他の競争的アプローチよりも密集的で一貫性のあるドキュメント翻訳を実現することができました。
論文 参考訳(メタデータ) (2020-10-08T02:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。