論文の概要: LLMs Do Not Grade Essays Like Humans
- arxiv url: http://arxiv.org/abs/2603.23714v1
- Date: Tue, 24 Mar 2026 21:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.02429
- Title: LLMs Do Not Grade Essays Like Humans
- Title(参考訳): LLMは人間のような評価をしない
- Authors: Jerin George Mathew, Sumayya Taher, Anindita Kundu, Denilson Barbosa,
- Abstract要約: 自動エッセイ評価のためのツールとして大規模な言語モデルが提案されているが、人間の評価との合意はいまだに不明である。
我々は,LLM生成スコアがヒトの成績とどのように比較され,GPTおよびLlamaファミリーから得られるいくつかのモデルの格付け挙動を,アウト・オブ・ザ・ボックス設定で解析する。
- 参考スコア(独自算出の注目度): 3.686530147760242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have recently been proposed as tools for automated essay scoring, but their agreement with human grading remains unclear. In this work, we evaluate how LLM-generated scores compare with human grades and analyze the grading behavior of several models from the GPT and Llama families in an out-of-the-box setting, without task-specific training. Our results show that agreement between LLM and human scores remains relatively weak and varies with essay characteristics. In particular, compared to human raters, LLMs tend to assign higher scores to short or underdeveloped essays, while assigning lower scores to longer essays that contain minor grammatical or spelling errors. We also find that the scores generated by LLMs are generally consistent with the feedback they generate: essays receiving more praise tend to receive higher scores, while essays receiving more criticism tend to receive lower scores. These results suggest that LLM-generated scores and feedback follow coherent patterns but rely on signals that differ from those used by human raters, resulting in limited alignment with human grading practices. Nevertheless, our work shows that LLMs produce feedback that is consistent with their grading and that they can be reliably used in supporting essay scoring.
- Abstract(参考訳): 大規模な言語モデルは、最近、自動エッセイ評価のためのツールとして提案されているが、人間の格付けとの合意は未だ不明である。
本研究では,LLM生成スコアが人間の成績とどのように比較されるかを評価するとともに,GPTおよびLlamaファミリーから得られた複数のモデルの格付け動作を,タスク固有の訓練を伴わずに,アウト・オブ・ボックス設定で解析する。
以上の結果から,LLMとヒトのスコアの一致は比較的弱く,エッセイの特徴によって異なることが明らかとなった。
特に、人間のラテンダーと比較すると、LLMは短いエッセイや未発達のエッセイに高いスコアを割り当てる傾向があり、一方、短い文法や綴りの誤りを含む長いエッセイに低いスコアを割り当てる傾向にある。
より賞賛を受けるエッセイはより高いスコアを受け取る傾向があり、エッセイはより批判を受けるエッセイは低いスコアを受け取る傾向にある。
以上の結果から, LLM生成のスコアとフィードバックはコヒーレントパターンに従うが, 人間のレーダと異なる信号に依存しており, 結果としてヒトの格付け慣行との整合が限定されたことが示唆された。
しかしながら,本研究は,LLMが評価値に整合したフィードバックを生成し,エッセイ評価を支援する上で確実に利用できることを示す。
関連論文リスト
- Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Are Large Language Models Good Essay Graders? [4.134395287621344]
我々は,エッセイの質を評価する上で,Large Language Models (LLMs) を評価する。
我々は,LLMが提供した数値を,ASAPデータセットを用いた人間レーダ提供スコアと比較した。
チャットGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
論文 参考訳(メタデータ) (2024-09-19T23:20:49Z) - Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition [0.09208007322096534]
大規模言語モデル (LLM) は自動エッセイスコーリング (AES) において有望であることを示す。
LLMはAESで有望だが、そのゼロショットと少数ショットのパフォーマンスは、最先端のモデルや人間のレーダに比べて低い。
本研究では,2つのエッセイを選択するためにゼロショットプロンプトを用いて,ALMと比較判断(CJ)を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-08T08:37:00Z) - Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。
人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。
本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文 参考訳(メタデータ) (2024-07-04T22:26:20Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。