論文の概要: Are Large Language Models Good Essay Graders?
- arxiv url: http://arxiv.org/abs/2409.13120v1
- Date: Thu, 19 Sep 2024 23:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:52:12.895552
- Title: Are Large Language Models Good Essay Graders?
- Title(参考訳): 大規模言語モデルは優れた評価学級か?
- Authors: Anindita Kundu, Denilson Barbosa,
- Abstract要約: 我々は,エッセイの質を評価する上で,Large Language Models (LLMs) を評価する。
我々は,LLMが提供した数値を,ASAPデータセットを用いた人間レーダ提供スコアと比較した。
チャットGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
- 参考スコア(独自算出の注目度): 4.134395287621344
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We evaluate the effectiveness of Large Language Models (LLMs) in assessing essay quality, focusing on their alignment with human grading. More precisely, we evaluate ChatGPT and Llama in the Automated Essay Scoring (AES) task, a crucial natural language processing (NLP) application in Education. We consider both zero-shot and few-shot learning and different prompting approaches. We compare the numeric grade provided by the LLMs to human rater-provided scores utilizing the ASAP dataset, a well-known benchmark for the AES task. Our research reveals that both LLMs generally assign lower scores compared to those provided by the human raters; moreover, those scores do not correlate well with those provided by the humans. In particular, ChatGPT tends to be harsher and further misaligned with human evaluations than Llama. We also experiment with a number of essay features commonly used by previous AES methods, related to length, usage of connectives and transition words, and readability metrics, including the number of spelling and grammar mistakes. We find that, generally, none of these features correlates strongly with human or LLM scores. Finally, we report results on Llama 3, which are generally better across the board, as expected. Overall, while LLMs do not seem an adequate replacement for human grading, our results are somewhat encouraging for their use as a tool to assist humans in the grading of written essays in the future.
- Abstract(参考訳): 我々は,エッセイの品質評価におけるLarge Language Models (LLMs) の有効性を評価する。
より正確には、教育における重要な自然言語処理(NLP)アプリケーションであるAES(Automated Essay Scoring)タスクにおいて、ChatGPTとLlamaを評価した。
ゼロショット学習と少数ショット学習の両方、異なるプロンプトアプローチを検討します。
AESタスクでよく知られたベンチマークであるASAPデータセットを用いて,LSMが提供した数値と人間レーダ提供スコアを比較した。
我々の研究によると、両LSMは一般的に、ヒトのラッカーが提供したスコアよりも低いスコアを割り当てている。
特にChatGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
また,従来のAES法で一般的なエッセイ機能として,長さ,連結語と遷移語の使用,スペル数や文法ミスを含む可読性指標などについて実験した。
一般的に、これらの特徴は人間やLDMのスコアと強く相関するものではない。
最後に,Llama 3の結果について報告する。
全体として、LLMは人間の評価に十分な代替とは思えないが、我々の研究結果は、将来書かれたエッセイの分類において、人間を支援するツールとしての使用を奨励している。
関連論文リスト
- Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition [0.09208007322096534]
大規模言語モデル (LLM) は自動エッセイスコーリング (AES) において有望であることを示す。
LLMはAESで有望だが、そのゼロショットと少数ショットのパフォーマンスは、最先端のモデルや人間のレーダに比べて低い。
本研究では,2つのエッセイを選択するためにゼロショットプロンプトを用いて,ALMと比較判断(CJ)を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-08T08:37:00Z) - Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。
人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。
本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文 参考訳(メタデータ) (2024-07-04T22:26:20Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Can Large Language Models Automatically Score Proficiency of Written Essays? [3.993602109661159]
大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。
我々は,LLMの強力な言語知識を活かして,エッセイを分析し,効果的に評価する能力をテストする。
論文 参考訳(メタデータ) (2024-03-10T09:39:00Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。