論文の概要: Automated Generation and Tagging of Knowledge Components from Multiple-Choice Questions
- arxiv url: http://arxiv.org/abs/2405.20526v1
- Date: Thu, 30 May 2024 22:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 16:05:36.897243
- Title: Automated Generation and Tagging of Knowledge Components from Multiple-Choice Questions
- Title(参考訳): 複数項目質問からの知識コンポーネントの自動生成とタグ付け
- Authors: Steven Moore, Robin Schmucker, Tom Mitchell, John Stamper,
- Abstract要約: 我々はGPT-4を用いて、化学とE-ラーニングにおけるマルチチョイス質問(MCQ)のためのKCを生成する。
我々は,Large Language Model (LLM) によるKCと人間によるKCの相違について分析した。
また,その内容に基づいて類似したKCをクラスタリングする帰納的アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 2.6644846626273457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Components (KCs) linked to assessments enhance the measurement of student learning, enrich analytics, and facilitate adaptivity. However, generating and linking KCs to assessment items requires significant effort and domain-specific knowledge. To streamline this process for higher-education courses, we employed GPT-4 to generate KCs for multiple-choice questions (MCQs) in Chemistry and E-Learning. We analyzed discrepancies between the KCs generated by the Large Language Model (LLM) and those made by humans through evaluation from three domain experts in each subject area. This evaluation aimed to determine whether, in instances of non-matching KCs, evaluators showed a preference for the LLM-generated KCs over their human-created counterparts. We also developed an ontology induction algorithm to cluster questions that assess similar KCs based on their content. Our most effective LLM strategy accurately matched KCs for 56% of Chemistry and 35% of E-Learning MCQs, with even higher success when considering the top five KC suggestions. Human evaluators favored LLM-generated KCs, choosing them over human-assigned ones approximately two-thirds of the time, a preference that was statistically significant across both domains. Our clustering algorithm successfully grouped questions by their underlying KCs without needing explicit labels or contextual information. This research advances the automation of KC generation and classification for assessment items, alleviating the need for student data or predefined KC labels.
- Abstract(参考訳): 評価に関連する知識コンポーネント(KC)は、学生の学習の測定を強化し、分析を充実させ、適応性を促進する。
しかしながら、KCを評価項目に生成およびリンクするには、かなりの努力とドメイン固有の知識が必要である。
高等教育の過程を合理化するために,我々はGPT-4を用いて,化学・E-ラーニングにおけるマルチチョイス質問(MCQ)のKCを生成した。
大規模言語モデル(LLM)によるKCと人間によるKCの相違を,各分野の専門家3名による評価により分析した。
この評価は,非適合性KCの場合において,人為的KCよりもLLM生成KCを優先するか否かを判定することを目的とした。
また,その内容に基づいて類似したKCをクラスタリングするオントロジー誘導アルゴリズムを開発した。
我々の最も効果的なLCM戦略は、化学の56%、E-Learning MCQの35%でKCと正確に一致した。
人間の評価者は、LLMが生成するKCを好んだが、その約3分の2は人間に割り当てられたKCを選択した。
我々のクラスタリングアルゴリズムは、明確なラベルや文脈情報を必要とせずに、基礎となるKCで質問をグループ化することに成功しました。
本研究は、評価項目のKC生成と分類の自動化を推進し、学生データや予め定義されたKCラベルの必要性を軽減する。
関連論文リスト
- TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [2.186726107112913]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - MaScQA: A Question Answering Dataset for Investigating Materials Science
Knowledge of Large Language Models [29.70397245624547]
この研究は、材料学生の知識とスキルを必要とする材料領域から、650の挑戦的な質問のデータセットをキュレートする。
GPT-4はGPT-3.5と比較して最高の性能(62%の精度)を示した。
論文 参考訳(メタデータ) (2023-08-17T17:51:05Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Evaluating the Knowledge Dependency of Questions [12.25396414711877]
知識依存解答法(KDA)を考案した新しい自動評価指標を提案する。
まず,人的調査から得られた学生の回答に基づいて,KDAの測定方法を示す。
そこで本研究では,学生の問題解決行動を模倣するために,事前学習言語モデルを活用することで,KDAを近似した2つの自動評価指標KDA_discとKDA_contを提案する。
論文 参考訳(メタデータ) (2022-11-21T23:08:30Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Decision Making for Hierarchical Multi-label Classification with
Multidimensional Local Precision Rate [4.812468844362369]
我々は,各クラスの各対象に対して,多次元局所精度率 (mLPR) と呼ばれる新しい統計モデルを導入する。
我々は,mLPRの下位順序でクラス間でオブジェクトをソートするだけで,クラス階層を確実にすることができることを示す。
これに対し、階層を尊重しながら推定mLPRを用いてCATCHの実証バージョンを最大化する新しいアルゴリズムであるHierRankを導入する。
論文 参考訳(メタデータ) (2022-05-16T17:43:35Z) - Classifying Math KCs via Task-Adaptive Pre-Trained BERT [14.53486865876146]
この研究は、入力型をKC記述、命令ビデオタイトル、問題記述を含むように拡張することで、先行研究を大幅に改善する。
また,誤予測されたKCラベルの56-73%を復元できる簡易評価尺度を提案する。
論文 参考訳(メタデータ) (2021-05-24T15:27:33Z) - KACC: A Multi-task Benchmark for Knowledge Abstraction, Concretization
and Completion [99.47414073164656]
包括的知識グラフ(KG)は、インスタンスレベルのエンティティグラフとオントロジーレベルの概念グラフを含む。
2ビューのKGは、知識の抽象化、包括化、完成に関する人間の能力を「シミュレーション」するためのモデルのためのテストベッドを提供する。
我々は,データセットのスケール,タスクカバレッジ,難易度の観点から,既存のベンチマークを改善した統一KGベンチマークを提案する。
論文 参考訳(メタデータ) (2020-04-28T16:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。