論文の概要: Leveraging Large Language Models for Identifying Knowledge Components
- arxiv url: http://arxiv.org/abs/2511.09935v1
- Date: Fri, 14 Nov 2025 01:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.59008
- Title: Leveraging Large Language Models for Identifying Knowledge Components
- Title(参考訳): 知識コンポーネント同定のための大規模言語モデルの活用
- Authors: Canwen Wang, Jionghao Lin, Kenneth R. Koedinger,
- Abstract要約: 知識コンポーネント(KC)は適応学習システムの基礎であるが、ドメインの専門家による手動の識別は重要なボトルネックである。
本研究は、まず「シミュレーション教科書」 LLM を646質問のより大きなデータセットに拡張し、これらの制限に対処する。
冗長性の問題に対処するため,コサイン類似性に基づいて意味論的に類似したKCラベルをマージする手法を提案し,評価した。
- 参考スコア(独自算出の注目度): 1.8415836100401994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Components (KCs) are foundational to adaptive learning systems, but their manual identification by domain experts is a significant bottleneck. While Large Language Models (LLMs) offer a promising avenue for automating this process, prior research has been limited to small datasets and has been shown to produce superfluous, redundant KC labels. This study addresses these limitations by first scaling a "simulated textbook" LLM prompting strategy (using GPT-4o-mini) to a larger dataset of 646 multiple-choice questions. We found that this initial automated approach performed significantly worse than an expert-designed KC model (RMSE 0.4285 vs. 0.4206) and generated an excessive number of KCs (569 vs. 101). To address the issue of redundancy, we proposed and evaluated a novel method for merging semantically similar KC labels based on their cosine similarity. This merging strategy significantly improved the model's performance; a model using a cosine similarity threshold of 0.8 achieved the best result, reducing the KC count to 428 and improving the RMSE to 0.4259. This demonstrates that while scaled LLM generation alone is insufficient, combining it with a semantic merging technique offers a viable path toward automating and refining KC identification.
- Abstract(参考訳): 知識コンポーネント(KC)は適応学習システムの基礎であるが、ドメインの専門家による手動の識別は重要なボトルネックである。
LLM(Large Language Models)は、このプロセスを自動化するための有望な道を提供するが、以前の研究は小さなデータセットに限られており、過剰で冗長なKCラベルを生成することが示されている。
本研究は、まず「模擬教科書」 LLM の促進戦略( GPT-4o-mini を用いて)を646質問の大規模データセットに拡張することにより、これらの制限に対処する。
この初期自動化手法は, 専門家が設計したKCモデル (RMSE 0.4285 vs. 0.4206) よりも有意に悪化し, 過剰な数KCs (569 vs. 101) を生成した。
冗長性の問題に対処するため,コサイン類似性に基づいて意味論的に類似したKCラベルをマージする手法を提案し,評価した。
このマージ戦略によりモデルの性能は大幅に向上し、コサイン類似度閾値0.8のモデルが最高の結果となり、KC数は428に減少しRMSEは0.4259に改善された。
このことは、スケールしたLLM生成だけでは不十分であるが、セマンティックマージ技術と組み合わせることで、KC識別の自動化と精細化に向けた実行可能なパスが提供されることを示している。
関連論文リスト
- From Static to Dynamic: Adaptive Monte Carlo Search for Mathematical Process Supervision [49.59309446816251]
既存手法は, 定予算サンプリング戦略に基づいて, 推論ステップの質を推定する。
本稿では,データ生成を静的から適応に変換するフレームワークであるAdaptive Monte Carlo Search (AMCS)を提案する。
AMCSは、より多くのサンプルを不確実な推論ステップに割り当てることによって、予測を適応的に洗練し、予測しやすくする。
論文 参考訳(メタデータ) (2025-09-29T06:52:35Z) - SignBart -- New approach with the skeleton sequence for Isolated Sign language Recognition [0.17578923069457017]
本研究では,骨格配列のx,y座標から意味情報を独立に抽出することの難しさを克服する新しいSLR手法を提案する。
749,888のパラメータだけで、このモデルはLSA-64データセットで96.04%の精度を達成している。
このモデルはまた、WLASLとASL-Citizenデータセット間で優れたパフォーマンスと一般化を示す。
論文 参考訳(メタデータ) (2025-06-18T07:07:36Z) - Gradient-Based Model Fingerprinting for LLM Similarity Detection and Family Classification [6.008384763761687]
大規模言語モデル(LLM)は、現代のアプリケーションにおいて重要なソフトウェアコンポーネントである。
類似性検出と家族分類のための勾配型フィンガープリントフレームワークGuardを提示する。
本稿では,ランダムな入力摂動に対する応答を解析することにより,モデル固有の行動シグネチャを抽出する。
広く採用されているセーフテンソルフォーマットをサポートし、勾配特性の統計解析を通じて高次元指紋を構築する。
論文 参考訳(メタデータ) (2025-06-02T13:08:01Z) - Dial-In LLM: Human-Aligned LLM-in-the-loop Intent Clustering for Customer Service Dialogues [17.626050625643206]
LLM-in-the-loop (LLM-ITL) による言語理解能力をクラスタリングアルゴリズムに統合するためのクラスタリングフレームワークを提案する。
本稿では, 意味的コヒーレンス評価と意図クラスタ命名における微調整 LLM の有効性を検討した。
本稿では,1,507件の人的注釈付きクラスタを用いた,100万件以上の実際の顧客サービスコールからなる,包括的な中国語対話意図データセットを提案する。
論文 参考訳(メタデータ) (2024-12-12T08:19:01Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Automated Knowledge Concept Annotation and Question Representation Learning for Knowledge Tracing [59.480951050911436]
自動知識概念アノテーションと質問表現学習のためのフレームワークであるKCQRLを提案する。
実世界の2つの学習データセット上で、15KTアルゴリズムにまたがるKCQRLの有効性を実証する。
論文 参考訳(メタデータ) (2024-10-02T16:37:19Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。