論文の概要: Can Large Language Models Automatically Score Proficiency of Written
Essays?
- arxiv url: http://arxiv.org/abs/2403.06149v1
- Date: Sun, 10 Mar 2024 09:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 07:28:55.871513
- Title: Can Large Language Models Automatically Score Proficiency of Written
Essays?
- Title(参考訳): 大規模言語モデルは筆記エッセイの精度を自動評価できるか?
- Authors: Watheq Mansour, Salam Albatarni, Sohaila Eltanbouly, Tamer Elsayed
- Abstract要約: 大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。
我々は,LLMの強力な言語知識を活かして,エッセイを分析し,効果的に評価する能力をテストする。
- 参考スコア(独自算出の注目度): 4.362723406385396
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although several methods were proposed to address the problem of automated
essay scoring (AES) in the last 50 years, there is still much to desire in
terms of effectiveness. Large Language Models (LLMs) are transformer-based
models that demonstrate extraordinary capabilities on various tasks. In this
paper, we test the ability of LLMs, given their powerful linguistic knowledge,
to analyze and effectively score written essays. We experimented with two
popular LLMs, namely ChatGPT and Llama. We aim to check if these models can do
this task and, if so, how their performance is positioned among the
state-of-the-art (SOTA) models across two levels, holistically and per
individual writing trait. We utilized prompt-engineering tactics in designing
four different prompts to bring their maximum potential to this task. Our
experiments conducted on the ASAP dataset revealed several interesting
observations. First, choosing the right prompt depends highly on the model and
nature of the task. Second, the two LLMs exhibited comparable average
performance in AES, with a slight advantage for ChatGPT. Finally, despite the
performance gap between the two LLMs and SOTA models in terms of predictions,
they provide feedback to enhance the quality of the essays, which can
potentially help both teachers and students.
- Abstract(参考訳): 過去50年間に自動エッセイスコアリング(AES)の問題に対処するためにいくつかの手法が提案されてきたが、効果の観点からはまだ多くの要望がある。
大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。
本稿では,その言語知識を活かし,文章のエッセイを分析し,効果的にスコア付けするllmの能力をテストする。
私たちはChatGPTとLlamaという2つの人気のあるLLMを実験した。
これらのモデルがこのタスクを実行できるかどうかを確認し、もしそうなら、それらのパフォーマンスが2段階にわたる最先端(SOTA)モデルの中でどのように位置づけられているのかを、全体的および個々の書き込み特性によって確認することを目指している。
4つの異なるプロンプトを設計するために,プロンプトエンジニアリングの手法を利用した。
ASAPデータセットを用いて行った実験では,いくつかの興味深い観察結果が得られた。
まず、正しいプロンプトを選択することは、タスクのモデルと性質に大きく依存します。
第二に、2つのLSMはAESで同等の平均性能を示し、ChatGPTにわずかに有利であった。
最後に,2つのLLMモデルとSOTAモデルのパフォーマンスの差にもかかわらず,エッセイの品質向上のためのフィードバックを提供し,教師と学生の両方に役立つ可能性がある。
関連論文リスト
- Are Large Language Models Good Essay Graders? [4.134395287621344]
我々は,エッセイの質を評価する上で,Large Language Models (LLMs) を評価する。
我々は,LLMが提供した数値を,ASAPデータセットを用いた人間レーダ提供スコアと比較した。
チャットGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
論文 参考訳(メタデータ) (2024-09-19T23:20:49Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation [15.718288693929019]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成する。
LLMがヒトアノテーターの代用として使用できるかどうかを検討した。
LLMはシステムレベルの評価において,現在の自動測定値よりも優れていますが,十分な説明が得られていないことが分かりました。
論文 参考訳(メタデータ) (2024-05-22T15:56:52Z) - Unleashing Large Language Models' Proficiency in Zero-shot Essay Scoring [12.66710643199155]
Multi Traitsのフレームワークは、大きな言語モデルに十分な可能性を秘めている。
特徴平均化と min-max スケーリングによる総合スコアを導出する。
MTSの助けを借りて、小型のLlama2-13b-chatはChatGPTを大幅に上回る。
論文 参考訳(メタデータ) (2024-04-07T12:25:35Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Tuning Large language model for End-to-end Speech Translation [7.297914077124909]
本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。
MuST-C 音声翻訳ベンチマークの実験結果は、En-De/En-Fr/En-Es 言語ペアの LST-13B BLEU スコアが 30.39/41.55/35.33 であり、以前のモデルを超え、新しい最先端技術を確立したことを示している。
論文 参考訳(メタデータ) (2023-10-03T13:43:50Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation [20.18656308749408]
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-01-27T22:02:27Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。