論文の概要: Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education
- arxiv url: http://arxiv.org/abs/2508.02442v1
- Date: Mon, 04 Aug 2025 14:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.732311
- Title: Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education
- Title(参考訳): 高等教育における学生評価の自動評価のための大規模言語モデルの信頼性と妥当性の評価
- Authors: Andrea Gaggioli, Giuseppe Casaburi, Leonardo Ercolani, Francesco Collova', Pietro Torre, Fabrizio Davide,
- Abstract要約: 高等教育環境におけるエッセイ自動評価において,5つの高度な大規模言語モデル (LLM) , Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4, Mistral 24B について検討した。
イタリア語の学生エッセイは、合計67点が4基準ルーブリックを用いて評価された。
人間とLLMの合意は一貫して低く、非重要であり、複製間のモデル内信頼性も同様に弱かった。
- 参考スコア(独自算出の注目度): 0.30158609733245967
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study investigates the reliability and validity of five advanced Large Language Models (LLMs), Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4, and Mistral 24B, for automated essay scoring in a real world higher education context. A total of 67 Italian-language student essays, written as part of a university psychology course, were evaluated using a four-criterion rubric (Pertinence, Coherence, Originality, Feasibility). Each model scored all essays across three prompt replications to assess intra-model stability. Human-LLM agreement was consistently low and non-significant (Quadratic Weighted Kappa), and within-model reliability across replications was similarly weak (median Kendall's W < 0.30). Systematic scoring divergences emerged, including a tendency to inflate Coherence and inconsistent handling of context-dependent dimensions. Inter-model agreement analysis revealed moderate convergence for Coherence and Originality, but negligible concordance for Pertinence and Feasibility. Although limited in scope, these findings suggest that current LLMs may struggle to replicate human judgment in tasks requiring disciplinary insight and contextual sensitivity. Human oversight remains critical when evaluating open-ended academic work, particularly in interpretive domains.
- Abstract(参考訳): 本研究では,5つの先進言語モデル(LLM),Claude 3.5,DeepSeek v2,Gemini 2.5,GPT-4,Mistral 24Bの信頼性と妥当性について検討した。
大学心理学コースの一部として書かれた67のイタリア語の学生エッセイを4つの基準のルーブリック(Pertinence, Coherence, Originality, Feasibility)を用いて評価した。
各モデルは、モデル内の安定性を評価するために、3つの即時複製でエッセイを全て獲得した。
人間とLLMの合意は一貫して低く、重要ではない(Quadratic Weighted Kappa)。
コヒーレンスと文脈依存次元の不整合処理の傾向を含む体系的なスコアリングのばらつきが出現した。
モデル間合意分析ではコヒーレンスとオリジンナリティに適度な収束性を示したが、永続性と実現性には無視できる一致性を示した。
範囲は限られているが、これらの知見は、現在のLLMが、学際的洞察と文脈的感受性を必要とするタスクにおいて、人間の判断を再現するのに苦労していることを示唆している。
オープンエンドの学問的著作、特に解釈的領域を評価する際には、人間の監督は依然として批判的である。
関連論文リスト
- Exploring LLM Autoscoring Reliability in Large-Scale Writing Assessments Using Generalizability Theory [2.5163150839708948]
本研究では,大言語モデル(LLM)の信頼性をAP中国語・文化試験から評価する。
一般化可能性理論を用いて、人間とAIのレーダ間のスコア一貫性を評価し比較する。
人間とAIの両方のレーダを組み込んだ複合スコアリングでは信頼性が向上し、ハイブリッドスコアリングモデルが大規模書き込みアセスメントにメリットをもたらす可能性がある。
論文 参考訳(メタデータ) (2025-07-26T15:33:05Z) - Source framing triggers systematic evaluation bias in Large Language Models [0.0]
本研究は、4つの最先端大規模言語モデル(LLM)におけるモデル間およびモデル内合意を体系的に検討する。
盲目状態では、異なるLLMがトピック間でのモデル間およびモデル間合意を著しく高めていることが分かる。
その結果, フレーミング効果はテキスト評価に深く影響し, LLMによる情報システムの完全性, 中立性, 公平性に重要な影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-14T07:42:27Z) - Evaluating and Advancing Multimodal Large Language Models in Perception Ability Lens [30.083110119139793]
textbfAbilityLensはMLLMを6つの重要な知覚能力で評価する統合ベンチマークである。
我々は、現在のメインストリームMLLMの長所と短所を特定し、安定性パターンを強調し、最先端のオープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにする。
論文 参考訳(メタデータ) (2024-11-22T04:41:20Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Internal Consistency and Self-Feedback in Large Language Models: A Survey [19.647988281648253]
我々は、内部整合性の統一的な視点を使用し、欠陥や幻覚を推論するための説明を提供する。
自己フィードバックと呼ばれる内部一貫性をマイニングできる効果的な理論的枠組みを導入する。
論文 参考訳(メタデータ) (2024-07-19T17:59:03Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。