論文の概要: Can LLMs Grade Short-answer Reading Comprehension Questions :
Foundational Literacy Assessment in LMICs
- arxiv url: http://arxiv.org/abs/2310.18373v1
- Date: Thu, 26 Oct 2023 17:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:59:07.159447
- Title: Can LLMs Grade Short-answer Reading Comprehension Questions :
Foundational Literacy Assessment in LMICs
- Title(参考訳): llms級短期学習者の理解質問 : lmicにおける基礎的リテラシー評価
- Authors: Owen Henkel, Libby Hills, Bill Roberts, Joshua McGrane
- Abstract要約: 本稿では,生成的大言語モデル(GPT-4)を用いて,短解答読解質問を確実に評価することの新たな証拠を示す。
具体的には,生成的(LLM)の様々な構成が,新しいデータセットから学生の反応を評価することができるかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents emerging evidence of using generative large language
models (i.e., GPT-4) to reliably evaluate short-answer reading comprehension
questions. Specifically, we explore how various configurations of generative
(LLMs) are able to evaluate student responses from a new dataset, drawn from a
battery of reading assessments conducted with over 150 students in Ghana. As
this dataset is novel and hence not used in training runs of GPT, it offers an
opportunity to test for domain shift and evaluate the generalizability of
generative LLMs, which are predominantly designed and trained on data from
high-income North American countries. We found that GPT-4, with minimal prompt
engineering performed extremely well on evaluating the novel dataset (Quadratic
Weighted Kappa 0.923, F1 0.88), substantially outperforming transfer-learning
based approaches, and even exceeding expert human raters (Quadratic Weighted
Kappa 0.915, F1 0.87). To the best of our knowledge, our work is the first to
empirically evaluate the performance of generative LLMs on short-answer reading
comprehension questions, using real student data, and suggests that generative
LLMs have the potential to reliably evaluate foundational literacy. Currently
the assessment of formative literacy and numeracy is infrequent in many low and
middle-income countries (LMICs) due to the cost and operational complexities of
conducting them at scale. Automating the grading process for reading assessment
could enable wider usage, and in turn improve decision-making regarding
curricula, school management, and teaching practice at the classroom level.
Importantly, in contrast transfer learning based approaches, generative LLMs
generalize well and the technical barriers to their use are low, making them
more feasible to implement and scale in lower resource educational contexts.
- Abstract(参考訳): 本稿では,生成的大言語モデル(GPT-4)を用いて,短文読解質問を確実に評価する手法を提案する。
具体的には,ガーナの150名以上の学生を対象に実施した読解評価から得られた新しいデータセットから,様々な構成の生成型(llm)が学生の反応を評価する方法について検討する。
このデータセットは新規であり、したがってGPTのトレーニングに使用されないため、高所得の北米諸国のデータに基づいて主に設計され、訓練された生成LDMのドメインシフトのテストと一般化性を評価する機会を提供する。
その結果, GPT-4は, 新規データセット(Quadratic Weighted Kappa 0.923, F1 0.88)の評価に極めて優れており, トランスファーラーニングに基づくアプローチよりも優れており, また, 熟練したレーダ(Quadratic Weighted Kappa 0.915, F1 0.87)よりも優れていた。
我々の知識を最大限に活用するために,本研究は,実生データを用いて,短時間質問読解における生成LDMの性能を実証的に評価し,基礎的リテラシーを確実に評価する可能性を示唆する。
現在、多くの低所得国や中所得国(LMIC)では、大規模に実施するコストと運用上の複雑さのため、形式的リテラシーと数字性の評価はまれである。
読解評価のための格付けプロセスの自動化は、より広い利用を可能にし、カリキュラム、学校管理、教室レベルでの教育実践に関する意思決定を改善することができる。
対照的に、トランスファーラーニングに基づくアプローチでは、ジェネレーティブ LLM が一般化し、それらの利用の技術的障壁は低く、リソース教育の文脈を低くして実装し、拡張しやすくする。
関連論文リスト
- DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset [7.954348293179786]
様々な次元にわたる大規模言語モデル(LLM)の能力を評価するためのベンチマークであるCFLUEを提案する。
知識評価では、38K以上の質問と関連する解法の説明からなる。
アプリケーションアセスメントでは、テキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスが特徴である。
論文 参考訳(メタデータ) (2024-05-17T05:03:40Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education [0.0]
本稿では, 大規模言語モデルを用いて, 短時間の回答に対するオープンテキスト応答の精度を評価できるような, 新たなデータセットによる一連の実験について報告する。
GPT-4は, 基本的数発のプロンプト(Kappa, 0.70)が良好に動作し, 人体レベルのパフォーマンス(0.75)に非常に近いことが判明した。
この研究は、GPT-4が、専門家のラッカーと非常に近いパフォーマンスレベルで、短い回答読解質問を確実にスコアできるという以前の知見に基づいている。
論文 参考訳(メタデータ) (2024-05-05T16:11:06Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。
この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。