Fugu-MT 論文翻訳(概要): Can LLMs Grade Short-answer Reading Comprehension Questions : Foundational Literacy Assessment in LMICs

論文の概要: Can LLMs Grade Short-answer Reading Comprehension Questions : Foundational Literacy Assessment in LMICs

arxiv url: http://arxiv.org/abs/2310.18373v1
Date: Thu, 26 Oct 2023 17:05:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 18:59:07.159447
Title: Can LLMs Grade Short-answer Reading Comprehension Questions : Foundational Literacy Assessment in LMICs
Title（参考訳）: llms級短期学習者の理解質問 : lmicにおける基礎的リテラシー評価
Authors: Owen Henkel, Libby Hills, Bill Roberts, Joshua McGrane
Abstract要約: 本稿では,生成的大言語モデル(GPT-4)を用いて,短解答読解質問を確実に評価することの新たな証拠を示す。具体的には,生成的(LLM)の様々な構成が,新しいデータセットから学生の反応を評価することができるかを検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents emerging evidence of using generative large language models (i.e., GPT-4) to reliably evaluate short-answer reading comprehension questions. Specifically, we explore how various configurations of generative (LLMs) are able to evaluate student responses from a new dataset, drawn from a battery of reading assessments conducted with over 150 students in Ghana. As this dataset is novel and hence not used in training runs of GPT, it offers an opportunity to test for domain shift and evaluate the generalizability of generative LLMs, which are predominantly designed and trained on data from high-income North American countries. We found that GPT-4, with minimal prompt engineering performed extremely well on evaluating the novel dataset (Quadratic Weighted Kappa 0.923, F1 0.88), substantially outperforming transfer-learning based approaches, and even exceeding expert human raters (Quadratic Weighted Kappa 0.915, F1 0.87). To the best of our knowledge, our work is the first to empirically evaluate the performance of generative LLMs on short-answer reading comprehension questions, using real student data, and suggests that generative LLMs have the potential to reliably evaluate foundational literacy. Currently the assessment of formative literacy and numeracy is infrequent in many low and middle-income countries (LMICs) due to the cost and operational complexities of conducting them at scale. Automating the grading process for reading assessment could enable wider usage, and in turn improve decision-making regarding curricula, school management, and teaching practice at the classroom level. Importantly, in contrast transfer learning based approaches, generative LLMs generalize well and the technical barriers to their use are low, making them more feasible to implement and scale in lower resource educational contexts.
Abstract（参考訳）: 本稿では,生成的大言語モデル(GPT-4)を用いて,短文読解質問を確実に評価する手法を提案する。具体的には,ガーナの150名以上の学生を対象に実施した読解評価から得られた新しいデータセットから,様々な構成の生成型(llm)が学生の反応を評価する方法について検討する。このデータセットは新規であり、したがってGPTのトレーニングに使用されないため、高所得の北米諸国のデータに基づいて主に設計され、訓練された生成LDMのドメインシフトのテストと一般化性を評価する機会を提供する。その結果, GPT-4は, 新規データセット(Quadratic Weighted Kappa 0.923, F1 0.88)の評価に極めて優れており, トランスファーラーニングに基づくアプローチよりも優れており, また, 熟練したレーダ(Quadratic Weighted Kappa 0.915, F1 0.87)よりも優れていた。我々の知識を最大限に活用するために,本研究は,実生データを用いて,短時間質問読解における生成LDMの性能を実証的に評価し,基礎的リテラシーを確実に評価する可能性を示唆する。現在、多くの低所得国や中所得国(LMIC)では、大規模に実施するコストと運用上の複雑さのため、形式的リテラシーと数字性の評価はまれである。読解評価のための格付けプロセスの自動化は、より広い利用を可能にし、カリキュラム、学校管理、教室レベルでの教育実践に関する意思決定を改善することができる。対照的に、トランスファーラーニングに基づくアプローチでは、ジェネレーティブ LLM が一般化し、それらの利用の技術的障壁は低く、リソース教育の文脈を低くして実装し、拡張しやすくする。

関連論文リスト

CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset [1.4999444543328293]
このデータセットは、チェコ語、スロバキア語、ウクライナの母語話者によって作成されたウィキペディアの質問と回答で構成されている。ベースラインとして,回答の正しさを判断する人間による判断を促進・補完することで,最先端のLCMを評価した。
論文参考訳（メタデータ） (2025-07-30T15:10:55Z)
Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。 LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文参考訳（メタデータ） (2025-01-14T14:49:14Z)
Embracing AI in Education: Understanding the Surge in Large Language Model Use by Secondary Students [53.20318273452059]
OpenAIのChatGPTのような大規模言語モデル(LLM)は、新しい教育の道を開いた。学校制限にもかかわらず,中高生300人以上を対象に調査を行ったところ,学生の70%がLDMを利用していることがわかった。我々は、対象特化モデル、パーソナライズドラーニング、AI教室など、このような問題に対処するいくつかのアイデアを提案する。
論文参考訳（メタデータ） (2024-11-27T19:19:34Z)
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文参考訳（メタデータ） (2024-09-04T06:28:22Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset [7.954348293179786]
様々な次元にわたる大規模言語モデル(LLM)の能力を評価するためのベンチマークであるCFLUEを提案する。知識評価では、38K以上の質問と関連する解法の説明からなる。アプリケーションアセスメントでは、テキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスが特徴である。
論文参考訳（メタデータ） (2024-05-17T05:03:40Z)
Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-05-10T15:10:20Z)
Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education [0.0]
本稿では, 大規模言語モデルを用いて, 短時間の回答に対するオープンテキスト応答の精度を評価できるような, 新たなデータセットによる一連の実験について報告する。 GPT-4は, 基本的数発のプロンプト(Kappa, 0.70)が良好に動作し, 人体レベルのパフォーマンス(0.75)に非常に近いことが判明した。この研究は、GPT-4が、専門家のラッカーと非常に近いパフォーマンスレベルで、短い回答読解質問を確実にスコアできるという以前の知見に基づいている。
論文参考訳（メタデータ） (2024-05-05T16:11:06Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文参考訳（メタデータ） (2024-02-26T20:33:50Z)
Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文参考訳（メタデータ） (2024-02-21T00:44:04Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
R2DE: a NLP approach to estimating IRT parameters of newly generated questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。特に、各質問の難易度と識別度を推定することができる。
論文参考訳（メタデータ） (2020-01-21T14:31:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。