論文の概要: Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition
- arxiv url: http://arxiv.org/abs/2407.05733v1
- Date: Mon, 8 Jul 2024 08:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:30:32.500340
- Title: Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition
- Title(参考訳): GPT-4は自動評価に十分か?:ラター認知に基づく比較判断法
- Authors: Seungju Kim, Meounggun Jo,
- Abstract要約: 大規模言語モデル (LLM) は自動エッセイスコーリング (AES) において有望であることを示す。
LLMはAESで有望だが、そのゼロショットと少数ショットのパフォーマンスは、最先端のモデルや人間のレーダに比べて低い。
本研究では,2つのエッセイを選択するためにゼロショットプロンプトを用いて,ALMと比較判断(CJ)を組み合わせた新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.09208007322096534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have shown promise in Automated Essay Scoring (AES), but their zero-shot and few-shot performance often falls short compared to state-of-the-art models and human raters. However, fine-tuning LLMs for each specific task is impractical due to the variety of essay prompts and rubrics used in real-world educational contexts. This study proposes a novel approach combining LLMs and Comparative Judgment (CJ) for AES, using zero-shot prompting to choose between two essays. We demonstrate that a CJ method surpasses traditional rubric-based scoring in essay scoring using LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動エッセイ・スコアリング(AES)において約束されているが、そのゼロショットと少数ショットのパフォーマンスは、最先端のモデルや人間のレーダと比較すると、しばしば短くなる。
しかし、実際の教育場面で用いられるエッセイプロンプトやルーブリックの多種多様さから、各タスクごとに微調整 LLM は実用的ではない。
本研究では,2つのエッセイを選択するためにゼロショットプロンプトを用いて,ALMと比較判断(CJ)を組み合わせた新しいアプローチを提案する。
LLMを用いたエッセイ評価において,CJ法が従来のルーリック法よりも優れていることを示す。
関連論文リスト
- Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Are Large Language Models Good Essay Graders? [4.134395287621344]
我々は,エッセイの質を評価する上で,Large Language Models (LLMs) を評価する。
我々は,LLMが提供した数値を,ASAPデータセットを用いた人間レーダ提供スコアと比較した。
チャットGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
論文 参考訳(メタデータ) (2024-09-19T23:20:49Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks [3.58262772907022]
言語モデル協議会(LMC: Language Model Council)では、LLMのグループが協力してテストを作成し、それに反応し、お互いの反応を評価してランキングを作成する。
感情的インテリジェンスに関する詳細なケーススタディでは、対人対立に対するオープン・エンド・レスポンスにおいて、20の最近のLCMを相互にランク付けするために配置する。
以上の結果から, LMCは, より分離性が高く, より堅牢なランキングを作成でき, ユーザスタディにより, 個々のLCM審査員よりも人的評価に整合性があることが示唆された。
論文 参考訳(メタデータ) (2024-06-12T19:05:43Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Unleashing Large Language Models' Proficiency in Zero-shot Essay Scoring [12.66710643199155]
Multi Traitsのフレームワークは、大きな言語モデルに十分な可能性を秘めている。
特徴平均化と min-max スケーリングによる総合スコアを導出する。
MTSの助けを借りて、小型のLlama2-13b-chatはChatGPTを大幅に上回る。
論文 参考訳(メタデータ) (2024-04-07T12:25:35Z) - Can Large Language Models Automatically Score Proficiency of Written Essays? [3.993602109661159]
大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。
我々は,LLMの強力な言語知識を活かして,エッセイを分析し,効果的に評価する能力をテストする。
論文 参考訳(メタデータ) (2024-03-10T09:39:00Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。