論文の概要: Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring
- arxiv url: http://arxiv.org/abs/2411.16337v1
- Date: Mon, 25 Nov 2024 12:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:24.343420
- Title: Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring
- Title(参考訳): AIはエッセイを格付けできるか?多次元エッセイ評価における大規模言語モデルと教師評価の比較分析
- Authors: Kathrin Seßler, Maurice Fürstenberg, Babette Bühler, Enkelejda Kasneci,
- Abstract要約: 大規模言語モデルは、教師のためのエッセイ・スコーリング作業を容易にする潜在的なソリューションを提供する。
大規模言語モデルのようなジェネレーティブAIの最近の発展は、教師にとってエッセイ・スコリング・タスクを促進する潜在的なソリューションを提供する。
我々は,ドイツの学生エッセイの評価において,オープンソースとクローズドソースの両方のLCMの性能と信頼性を評価した。
- 参考スコア(独自算出の注目度): 8.71931996488953
- License:
- Abstract: The manual assessment and grading of student writing is a time-consuming yet critical task for teachers. Recent developments in generative AI, such as large language models, offer potential solutions to facilitate essay-scoring tasks for teachers. In our study, we evaluate the performance and reliability of both open-source and closed-source LLMs in assessing German student essays, comparing their evaluations to those of 37 teachers across 10 pre-defined criteria (i.e., plot logic, expression). A corpus of 20 real-world essays from Year 7 and 8 students was analyzed using five LLMs: GPT-3.5, GPT-4, o1, LLaMA 3-70B, and Mixtral 8x7B, aiming to provide in-depth insights into LLMs' scoring capabilities. Closed-source GPT models outperform open-source models in both internal consistency and alignment with human ratings, particularly excelling in language-related criteria. The novel o1 model outperforms all other LLMs, achieving Spearman's $r = .74$ with human assessments in the overall score, and an internal consistency of $ICC=.80$. These findings indicate that LLM-based assessment can be a useful tool to reduce teacher workload by supporting the evaluation of essays, especially with regard to language-related criteria. However, due to their tendency for higher scores, the models require further refinement to better capture aspects of content quality.
- Abstract(参考訳): 学生の筆記のマニュアル評価と格付けは、教師にとって時間を要するが重要な課題である。
大規模言語モデルのようなジェネレーティブAIの最近の発展は、教師にとってエッセイ・スコリング・タスクを促進する潜在的なソリューションを提供する。
本研究では,ドイツの学生エッセイの評価において,オープンソースとクローズドソースの両方のLCMの性能と信頼性を評価し,その評価を10の事前定義された基準(プロット論理,表現など)の37人の教師と比較した。
GPT-3.5, GPT-4, o1, LLaMA 3-70B, Mixtral 8x7B の5つの LLM を用いて,LLM の採点能力に関する詳細な知見を提供することを目的として, 実世界の20のエッセイのコーパスを分析した。
クローズドソースGPTモデルは、内部の一貫性と人間の評価との整合性の両方において、オープンソースモデルよりも優れており、特に言語関連の基準において優れている。
新規のo1モデルは、他の全てのLLMよりも優れており、スピアマンの$r = .74$を総合スコアで評価し、内部の一貫性は$ICC=.80$である。
これらの結果から,LLMに基づく評価は,エッセイの評価,特に言語関連基準を支持することで,教師の作業量を削減する上で有用なツールであることが示唆された。
しかし、より高いスコアの傾向のため、このモデルはコンテンツ品質の側面をよりよく捉えるためにさらなる改善を必要としている。
関連論文リスト
- MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
大型言語モデル(LLM)は、人間の好みや判断のプロキシとして機能するタスクの評価器として一般的に用いられる。
既存のベンチマークは主に英語に重点を置いており、非英語の文脈における評価者としてのLLMの有効性についての限られた洞察を提供している。
MM-Evalは6つのカテゴリにまたがる18言語をカバーする多言語メタ評価ベンチマークである。
論文 参考訳(メタデータ) (2024-10-23T06:04:55Z) - Are Large Language Models Good Essay Graders? [4.134395287621344]
我々は,エッセイの質を評価する上で,Large Language Models (LLMs) を評価する。
我々は,LLMが提供した数値を,ASAPデータセットを用いた人間レーダ提供スコアと比較した。
チャットGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
論文 参考訳(メタデータ) (2024-09-19T23:20:49Z) - Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models [9.761584874383873]
大規模言語モデルのアライメント能力を測定するために設計された,中国初の教育価値評価ベンチマークであるEdu-Valuesを提案する。
我々は,複数の選択,多モーダルな質問応答,主観的分析,敵対的プロンプト,伝統的な中国文化に関する質問など,1,418の質問を慎重に設計・コンパイルする。
教育文化の相違により、中国語のLLMは英語のLLMを大きく上回り、Qwen 2は81.37でランクインした。
論文 参考訳(メタデータ) (2024-09-19T13:02:54Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - GPT-4 Surpassing Human Performance in Linguistic Pragmatics [0.0]
本研究では,Large Language Models (LLMs) の言語プラグマティクスの理解と解釈能力について検討した。
Grice のコミュニケーション原理を用いて,LLM とヒトの被験者を対話型タスクに対する応答に基づいて評価した。
以上の結果より, LLM, 特にGPT4は, 実用的解釈において, 人体よりも優れていた。
論文 参考訳(メタデータ) (2023-12-15T05:40:15Z) - CITING: Large Language Models Create Curriculum for Instruction Tuning [35.66902011221179]
我々は、AIモデルを人間の代わりに活用して、学生のLLMを訓練するアイデアを生かしている。
本手法は, 教師が提示したリビジョンから, 筆跡を追従し, 書字スキルを磨く方法に着想を得たものである。
論文 参考訳(メタデータ) (2023-10-04T01:58:34Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。