論文の概要: LLM-as-a-Grader: Practical Insights from Large Language Model for Short-Answer and Report Evaluation
- arxiv url: http://arxiv.org/abs/2511.10819v2
- Date: Mon, 17 Nov 2025 22:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.596148
- Title: LLM-as-a-Grader: Practical Insights from Large Language Model for Short-Answer and Report Evaluation
- Title(参考訳): LLM-as-a-Grader: 短時間回答と報告評価のための大規模言語モデルからの実践的考察
- Authors: Grace Byun, Swati Rajwal, Jinho D. Choi,
- Abstract要約: 大規模言語モデル(LLM)は、グラデーションのような教育的なタスクのためにますます研究されている。
本研究は,LLMを用いて短期回答クイズとプロジェクトレポートを大学生の計算言語学コースで評価することの実現可能性について検討した。
- 参考スコア(独自算出の注目度): 11.663970954805395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly explored for educational tasks such as grading, yet their alignment with human evaluation in real classrooms remains underexamined. In this study, we investigate the feasibility of using an LLM (GPT-4o) to evaluate short-answer quizzes and project reports in an undergraduate Computational Linguistics course. We collect responses from approximately 50 students across five quizzes and receive project reports from 14 teams. LLM-generated scores are compared against human evaluations conducted independently by the course teaching assistants (TAs). Our results show that GPT-4o achieves strong correlation with human graders (up to 0.98) and exact score agreement in 55\% of quiz cases. For project reports, it also shows strong overall alignment with human grading, while exhibiting some variability in scoring technical, open-ended responses. We release all code and sample data to support further research on LLMs in educational assessment. This work highlights both the potential and limitations of LLM-based grading systems and contributes to advancing automated grading in real-world academic settings.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、学級化などの教育的課題のために研究されているが、実際の教室での人間の評価との整合性はいまだに過小評価されている。
本研究では,LLM (GPT-4o) を用いて, 短期回答クイズとプロジェクト報告の実施可能性について検討した。
約50人の学生から5つのクイズから回答を集め、14チームからプロジェクトレポートを受け取ります。
LLM生成スコアは、学習指導助手(TA)が単独で行う人間評価と比較される。
以上の結果から,GPT-4oは,55%のクイズ症例において,高学年(最大0.98)と正確なスコア一致と強い相関が得られた。
プロジェクトの報告では、人間のグレーティングとの全体的な整合性も強く、技術的、オープンな応答のスコアリングにはある程度のばらつきがある。
教育評価におけるLCMのさらなる研究を支援するため,全コードおよびサンプルデータをリリースする。
この研究は、LLMベースのグレーティングシステムの可能性と限界を強調し、現実世界の学術的環境における自動グレーティングの促進に貢献している。
関連論文リスト
- Automated Assignment Grading with Large Language Models: Insights From a Bioinformatics Course [0.0]
自然言語処理と大規模言語モデル(LLM)は、パーソナライズされたフィードバックの効率的な配信を可能にすることで、有望なソリューションを提供する。
自然言語処理と大規模言語モデル(LLM)の最近の進歩は、パーソナライズされたフィードバックの効率的な配信を可能にすることによって、有望なソリューションを提供する。
提案手法により,LLMは人間の評価値に匹敵する評価精度とフィードバック品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2025-01-24T13:59:14Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。