論文の概要: Exploring the Utilities of the Rationales from Large Language Models to Enhance Automated Essay Scoring
- arxiv url: http://arxiv.org/abs/2510.27131v1
- Date: Fri, 31 Oct 2025 03:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 19:57:09.742939
- Title: Exploring the Utilities of the Rationales from Large Language Models to Enhance Automated Essay Scoring
- Title(参考訳): 大規模言語モデルから自動エッセイスコーリングの実現に向けての合理化の活用を探る
- Authors: Hong Jiao, Hanna Choi, Haowei Hua,
- Abstract要約: The study found in general essay-based score performed than rationale-based score with higher Quadratic Weighted Kappa (QWK)
エッセイに基づくスコアリングモデルのアンサンブルモデリングは、特定のスコアレベルとすべてのスコアレベルの両方でスコアの精度を高めた。
- 参考スコア(独自算出の注目度): 0.5926203312586109
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study explored the utilities of rationales generated by GPT-4.1 and GPT-5 in automated scoring using Prompt 6 essays from the 2012 Kaggle ASAP data. Essay-based scoring was compared with rationale-based scoring. The study found in general essay-based scoring performed better than rationale-based scoring with higher Quadratic Weighted Kappa (QWK). However, rationale-based scoring led to higher scoring accuracy in terms of F1 scores for score 0 which had less representation due to class imbalance issues. The ensemble modeling of essay-based scoring models increased the scoring accuracy at both specific score levels and across all score levels. The ensemble modeling of essay-based scoring and each of the rationale-based scoring performed about the same. Further ensemble of essay-based scoring and both rationale-based scoring yielded the best scoring accuracy with QWK of 0.870 compared with 0.848 reported in literature.
- Abstract(参考訳): 本研究は,2012年のKaggle ASAPデータからのPrompt 6エッセイを用いて, GPT-4.1 と GPT-5 が生成した有理値の有用性について検討した。
エッセイに基づくスコアは理性に基づくスコアと比較された。
この研究は、一般的なエッセイに基づくスコアは、より高い4重重カッパ(QWK)を用いた有理数に基づくスコアよりも優れていた。
しかし、有理値に基づくスコアは、クラス不均衡の問題による表現力の低いスコア0に対するスコア0のF1スコアの点で高いスコア精度を導いた。
エッセイに基づくスコアリングモデルのアンサンブルモデリングは、特定のスコアレベルとすべてのスコアレベルの両方でスコアの精度を高めた。
エッセイに基づくスコアのアンサンブルモデリングと、各合理に基づくスコアは、ほぼ同じである。
さらにエッセイに基づく採点と理性に基づく採点のアンサンブルは、文献で報告されている0.848と比較すると0.870のQWKで最高の採点精度を得た。
関連論文リスト
- Exploration of Summarization by Generative Language Models for Automated Scoring of Long Essays [4.22134596033385]
本研究では,要約とプロンプトによる長いエッセイの自動採点のための生成言語モデルについて検討する。
その結果,QWKによる評価精度は,学習機関自動評価2.0データセットでは0.822から0.8878に向上した。
論文 参考訳(メタデータ) (2025-10-26T20:59:22Z) - Comparison of Scoring Rationales Between Large Language Models and Human Raters [3.4283859937936705]
本研究では,評価の不整合性の原因を明らかにするために,人間とLLMラッカーの理性について検討した。
大規模試験から得られたエッセイを用いて, GPT-4o, Geminiおよびその他のLLMの評価精度を検討した。
コサイン類似性は、与えられた有理量の類似性を評価するために用いられる。
論文 参考訳(メタデータ) (2025-09-27T16:58:51Z) - Exploring LLM Autoscoring Reliability in Large-Scale Writing Assessments Using Generalizability Theory [2.5163150839708948]
本研究では,大言語モデル(LLM)の信頼性をAP中国語・文化試験から評価する。
一般化可能性理論を用いて、人間とAIのレーダ間のスコア一貫性を評価し比較する。
人間とAIの両方のレーダを組み込んだ複合スコアリングでは信頼性が向上し、ハイブリッドスコアリングモデルが大規模書き込みアセスメントにメリットをもたらす可能性がある。
論文 参考訳(メタデータ) (2025-07-26T15:33:05Z) - Grade Inflation in Generative Models [53.21822493223038]
その結果,合成データの2次元分布と地絡データの2次元分布を比較することで,より優れた結果が得られることがわかった。
我々は、すべてのデータポイントを等しく評価するスコアも、これらと同様に、グレードインフレーションを示すことを提案する。
等密度スコアと負の次数R'enyiエントロピーの関連を同定する。
論文 参考訳(メタデータ) (2024-12-31T22:34:54Z) - Language Generation with Strictly Proper Scoring Rules [70.340673452404]
本稿では,非局所的なスコアリングルールを用いた言語モデリングが可能な,スコアリングルールを言語生成に適用するための戦略を提案する。
対数スコアの代替として、ブライアスコアと球面スコアの2つの古典的厳密なスコアルールを用いて言語生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-29T09:09:00Z) - Can ChatGPT evaluate research quality? [3.9627148816681284]
ChatGPT-4 は、REF の基準に適合する文書要約と品質評価の根拠を生成することができる。
全体として、ChatGPTは正式な研究品質評価タスクや非公式な研究品質評価タスクを信頼できるほど正確ではないようである。
論文 参考訳(メタデータ) (2024-02-08T10:00:40Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。