論文の概要: Machine-Assisted Grading of Nationwide School-Leaving Essay Exams with LLMs and Statistical NLP
- arxiv url: http://arxiv.org/abs/2601.16314v1
- Date: Thu, 22 Jan 2026 20:44:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.402404
- Title: Machine-Assisted Grading of Nationwide School-Leaving Essay Exams with LLMs and Statistical NLP
- Title(参考訳): LLMと統計NLPを用いた全国学校学習エッセイの機械支援グレーディング
- Authors: Andres Karjus, Kais Allkivi, Silvia Maine, Katarin Leppik, Krister Kruusmaa, Merilin Aruvee,
- Abstract要約: 大規模言語モデル(LLM)は、オープンエンド試験応答の迅速かつ一貫した自動評価を可能にする。
我々は、公式カリキュラムベースのルーリックを運用し、LLMと統計自然言語処理(NLP)に基づく評価と人間のパネルスコアを比較した。
その結果, 自動スコアリングは, 人間のレーダに匹敵する性能を達成でき, 人間のスコアリング範囲に該当する傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) enable rapid and consistent automated evaluation of open-ended exam responses, including dimensions of content and argumentation that have traditionally required human judgment. This is particularly important in cases where a large amount of exams need to be graded in a limited time frame, such as nation-wide graduation exams in various countries. Here, we examine the applicability of automated scoring on two large datasets of trial exam essays of two full national cohorts from Estonia. We operationalize the official curriculum-based rubric and compare LLM and statistical natural language processing (NLP) based assessments with human panel scores. The results show that automated scoring can achieve performance comparable to that of human raters and tends to fall within the human scoring range. We also evaluate bias, prompt injection risks, and LLMs as essay writers. These findings demonstrate that a principled, rubric-driven, human-in-the-loop scoring pipeline is viable for high-stakes writing assessment, particularly relevant for digitally advanced societies like Estonia, which is about to adapt a fully electronic examination system. Furthermore, the system produces fine-grained subscore profiles that can be used to generate systematic, personalized feedback for instruction and exam preparation. The study provides evidence that LLM-assisted assessment can be implemented at a national scale, even in a small-language context, while maintaining human oversight and compliance with emerging educational and regulatory standards.
- Abstract(参考訳): 大規模言語モデル(LLM)は、伝統的に人間の判断を必要とする内容や議論の次元を含む、オープンエンド試験応答の迅速かつ一貫した自動評価を可能にする。
これは、各国の全国的な卒業試験など、限られた時間枠で大量の試験を格付けする必要がある場合に特に重要である。
本稿では,エストニアの2つの全国コホートを対象とした2つの大規模な試行試験エッセイのデータセットに対する自動採点の有効性について検討する。
我々は、公式カリキュラムベースのルーリックを運用し、LLMと統計自然言語処理(NLP)に基づく評価と人間のパネルスコアを比較した。
その結果, 自動スコアリングは, 人間のレーダに匹敵する性能を達成でき, 人間のスコアリング範囲に該当する傾向にあることがわかった。
また,エッセイ作家として,バイアス,インジェクションリスク,LSMを評価した。
これらの結果から,完全電子検査システムに適応しようとしているエストニアなど,高度に高度な社会において,基本的,ルーリック駆動型,ループ内人為的スコアリングパイプラインが,ハイテイクな筆記評価に有効であることが示唆された。
さらに,本システムは詳細なサブスコアプロファイルを生成し,教師と試験の準備のための体系的,パーソナライズされたフィードバックを生成する。
この研究は、LLMが支援する評価が、人間の監督と新しい教育および規制基準の遵守を維持しながら、小規模の文脈でも、全国規模で実施可能であることを示す。
関連論文リスト
- AI-generated Essays: Characteristics and Implications on Automated Scoring and Academic Integrity [13.371946973050845]
我々は、人気のある大言語モデル(LLM)によって生成されるエッセイの特徴と品質を検証し、ベンチマークする。
本研究は,既存の自動スコアリングシステムの限界を強調し,改善すべき領域を特定した。
LLMの多種多様さがAI生成エッセイの検出の可能性を損なう可能性があるという懸念にもかかわらず、我々の研究結果は、あるモデルから生成されたエッセイに基づいて訓練された検出器が、高い精度で他人のテキストを識別できることをしばしば示している。
論文 参考訳(メタデータ) (2024-10-22T21:30:58Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。