論文の概要: How Well Do LLMs Predict Prerequisite Skills? Zero-Shot Comparison to Expert-Defined Concepts
- arxiv url: http://arxiv.org/abs/2507.18479v1
- Date: Thu, 24 Jul 2025 14:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.82754
- Title: How Well Do LLMs Predict Prerequisite Skills? Zero-Shot Comparison to Expert-Defined Concepts
- Title(参考訳): LLMは必須スキルをいかに予測するか? 専門家による概念のゼロショット比較
- Authors: Ngoc Luyen Le, Marie-Hélène Abel,
- Abstract要約: 本稿では,大規模言語モデル (LLM) がゼロショット設定で前提条件のスキルを予測できるかどうかを検討する。
GPT-4, Claude 3, Gemini, LLaMA 4, Qwen2, Score, DeepSeekを含む13の最先端LCMを評価した。
以上の結果から,LLaMA4-Maverick,Claude-3-7-Sonnet,Qwen2-72Bなどのモデルが,専門家の地上真実と密接に一致した予測を生成することがわかった。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prerequisite skills - foundational competencies required before mastering more advanced concepts - are important for supporting effective learning, assessment, and skill-gap analysis. Traditionally curated by domain experts, these relationships are costly to maintain and difficult to scale. This paper investigates whether large language models (LLMs) can predict prerequisite skills in a zero-shot setting, using only natural language descriptions and without task-specific fine-tuning. We introduce ESCO-PrereqSkill, a benchmark dataset constructed from the ESCO taxonomy, comprising 3,196 skills and their expert-defined prerequisite links. Using a standardized prompting strategy, we evaluate 13 state-of-the-art LLMs, including GPT-4, Claude 3, Gemini, LLaMA 4, Qwen2, and DeepSeek, across semantic similarity, BERTScore, and inference latency. Our results show that models such as LLaMA4-Maverick, Claude-3-7-Sonnet, and Qwen2-72B generate predictions that closely align with expert ground truth, demonstrating strong semantic reasoning without supervision. These findings highlight the potential of LLMs to support scalable prerequisite skill modeling for applications in personalized learning, intelligent tutoring, and skill-based recommender systems.
- Abstract(参考訳): より高度な概念を習得するために必要な基礎的能力である必須スキルは、効果的な学習、評価、スキルギャップ分析を支援する上で重要である。
ドメインの専門家によって伝統的にキュレーションされ、これらの関係は維持するのにコストがかかり、スケールが困難である。
本稿では,大規模言語モデル(LLM)が,自然言語記述のみを使用し,タスク固有の微調整を行わずに,ゼロショット設定で必要なスキルを予測できるかどうかを検討する。
ESCO-PrereqSkillは,3,196のスキルと専門家が定義した前提条件リンクから構成されるESCO分類から構築されたベンチマークデータセットである。
GPT-4, Claude 3, Gemini, LLaMA 4, Qwen2, DeepSeekを含む13の最先端LCMを, セマンティックな類似性, BERTScore, 推論待ち時間で評価した。
以上の結果から,LLaMA4-Maverick,Claude-3-7-Sonnet,Qwen2-72Bといったモデルが,専門家の根拠と密に一致した予測を生成し,教師なしの強い意味論的推論を示す。
これらの知見は、パーソナライズされた学習、インテリジェントなチュータリング、スキルベースのレコメンデータシステムにおいて、スケーラブルな前提スキルモデリングをサポートするLLMの可能性を浮き彫りにした。
関連論文リスト
- OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases [38.58409057214189]
textbftextscOneEvalは、LLM(Large Language Models)の知識集約推論能力を評価するベンチマークである。
textscOneEvalは、慎重にキュレートされた4,019のインスタンスで構成され、特に難しいケースが1,285である、挑戦的なサブセットであるtextscOneEvaltextsubscriptHardを含んでいる。
我々は、構造化知識推論の継続的な進歩を促進するためのリーダーボードを伴って、textscOneEvalデータセット、評価スクリプト、ベースライン結果を公開した。
論文 参考訳(メタデータ) (2025-06-14T17:16:05Z) - SkillVerse : Assessing and Enhancing LLMs with Tree Evaluation [70.27631454256024]
SkillVerseは、特定の能力におけるモデル習熟度を理解するための教師なしツリー構造化診断フレームワークである。
任意のレベルの粒度の習熟度を考慮すれば、SkillVerseはモダンな大規模モデルの振る舞いの洞察を生み出す柔軟性がある。
論文 参考訳(メタデータ) (2025-05-31T00:08:59Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language [35.84181171987974]
我々のゴールは、数値データを処理し、任意の場所で確率的予測を行うレグレッションモデルを構築することである。
まず、大規模言語モデルから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。
本研究では,テキストを数値予測に組み込む能力を示し,予測性能を改善し,定性的な記述を反映した定量的な構造を与える。
論文 参考訳(メタデータ) (2024-05-21T15:13:12Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Finetuning an LLM on Contextual Knowledge of Classics for Q&A [0.0]
このプロジェクトは、クラシックの知識と人工知能の能力を統合する試みである。
本研究の目的は,文脈知識を正確に再現するだけでなく,一貫した「個性」を示すLLMを開発することである。
論文 参考訳(メタデータ) (2023-12-13T02:32:01Z) - Skill-it! A Data-Driven Skills Framework for Understanding and Training
Language Models [29.17711426767209]
本稿では,タスク間のダウンストリームモデルの性能向上につながるデータの選択方法について検討する。
簡単な仮説に基づく新しいフレームワークを開発する。人間が意図的な順序で相互依存するスキルを取得するのと同じように、言語モデルもトレーニングデータから一連のスキルを学ぶ際に自然な順序に従う。
論文 参考訳(メタデータ) (2023-07-26T18:01:49Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。