論文の概要: Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education
- arxiv url: http://arxiv.org/abs/2405.02985v1
- Date: Sun, 5 May 2024 16:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 15:33:57.868901
- Title: Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education
- Title(参考訳): 大規模言語モデルはグレードにできるか? : K-12教育におけるLLMの短解答能力を評価する実証的研究
- Authors: Owen Henkel, Adam Boxer, Libby Hills, Bill Roberts,
- Abstract要約: 本稿では, 大規模言語モデルを用いて, 短時間の回答に対するオープンテキスト応答の精度を評価できるような, 新たなデータセットによる一連の実験について報告する。
GPT-4は, 基本的数発のプロンプト(Kappa, 0.70)が良好に動作し, 人体レベルのパフォーマンス(0.75)に非常に近いことが判明した。
この研究は、GPT-4が、専門家のラッカーと非常に近いパフォーマンスレベルで、短い回答読解質問を確実にスコアできるという以前の知見に基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents reports on a series of experiments with a novel dataset evaluating how well Large Language Models (LLMs) can mark (i.e. grade) open text responses to short answer questions, Specifically, we explore how well different combinations of GPT version and prompt engineering strategies performed at marking real student answers to short answer across different domain areas (Science and History) and grade-levels (spanning ages 5-16) using a new, never-used-before dataset from Carousel, a quizzing platform. We found that GPT-4, with basic few-shot prompting performed well (Kappa, 0.70) and, importantly, very close to human-level performance (0.75). This research builds on prior findings that GPT-4 could reliably score short answer reading comprehension questions at a performance-level very close to that of expert human raters. The proximity to human-level performance, across a variety of subjects and grade levels suggests that LLMs could be a valuable tool for supporting low-stakes formative assessment tasks in K-12 education and has important implications for real-world education delivery.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)が短い回答質問に対してどの程度オープンテキスト応答をマークできるかを評価するための,新しいデータセットを用いた一連の実験について報告する。具体的には,GPTバージョンと,さまざまなドメイン領域(科学と歴史)とグレードレベル(5~16歳)にまたがって,実際の学生回答を短い回答にマーキングするための技術戦略の組み合わせがいかに優れているかを,クイズプラットフォームであるCarouselからの新しい未使用データセットを用いて検討する。
GPT-4は,基本的数発のプロンプト(Kappa,0.70)が良好に動作し,人間レベルのパフォーマンス(0.75)に非常に近いことが判明した。
この研究は、GPT-4が、専門家のラッカーと非常に近いパフォーマンスレベルで、短い回答読解質問を確実にスコアできるという以前の知見に基づいている。
人的レベルのパフォーマンスに近づき、様々な科目や学級にまたがって、LLMはK-12教育における低レベルの形式的アセスメントタスクを支援する貴重なツールであり、現実世界の教育提供に重要な意味を持つことを示唆している。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Evaluating the capability of large language models to personalize science texts for diverse middle-school-age learners [0.0]
GPT-4は、トレーニングセッション中に選択した選択に基づいて、学生の学習嗜好をプロファイルするために使用された。
実験グループでは,GPT-4を用いて,学生の予測プロファイルに適合する科学テキストの書き直しを行い,制御グループでは,学習嗜好に反する文章の書き直しを行った。
論文 参考訳(メタデータ) (2024-08-09T17:53:35Z) - Annotation Guidelines-Based Knowledge Augmentation: Towards Enhancing Large Language Models for Educational Text Classification [11.69740323250258]
大規模言語モデル(LLM)を改善するためのガイドラインベース知識拡張(AGKA)アプローチを提案する。
AGKAはGPT 4.0を使用して、アノテーションガイドラインからラベル定義の知識を取得し、ランダムアンダーサンプラーを適用していくつかの典型的な例を選択する。
実験の結果、AGKAは非微調整LDM(特にGPT 4.0とLlama 3 70B)を増強できることが示された。
論文 参考訳(メタデータ) (2024-06-03T03:09:01Z) - Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset [7.954348293179786]
様々な次元にわたる大規模言語モデル(LLM)の能力を評価するためのベンチマークであるCFLUEを提案する。
知識評価では、38K以上の質問と関連する解法の説明からなる。
アプリケーションアセスメントでは、テキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスが特徴である。
論文 参考訳(メタデータ) (2024-05-17T05:03:40Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。
ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。
本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文 参考訳(メタデータ) (2023-10-26T17:05:40Z) - A Large Language Model Approach to Educational Survey Feedback Analysis [0.0]
本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。
論文 参考訳(メタデータ) (2023-09-29T17:57:23Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。