論文の概要: Exploring LLM Autoscoring Reliability in Large-Scale Writing Assessments Using Generalizability Theory
- arxiv url: http://arxiv.org/abs/2507.19980v2
- Date: Tue, 29 Jul 2025 15:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.844305
- Title: Exploring LLM Autoscoring Reliability in Large-Scale Writing Assessments Using Generalizability Theory
- Title(参考訳): 一般化可能性理論を用いた大規模評価評価におけるLCM自動信頼性の探索
- Authors: Dan Song, Won-Chan Lee, Hong Jiao,
- Abstract要約: 本研究では,大言語モデル(LLM)の信頼性をAP中国語・文化試験から評価する。
一般化可能性理論を用いて、人間とAIのレーダ間のスコア一貫性を評価し比較する。
人間とAIの両方のレーダを組み込んだ複合スコアリングでは信頼性が向上し、ハイブリッドスコアリングモデルが大規模書き込みアセスメントにメリットをもたらす可能性がある。
- 参考スコア(独自算出の注目度): 2.5163150839708948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the estimation of reliability for large language models (LLMs) in scoring writing tasks from the AP Chinese Language and Culture Exam. Using generalizability theory, the research evaluates and compares score consistency between human and AI raters across two types of AP Chinese free-response writing tasks: story narration and email response. These essays were independently scored by two trained human raters and seven AI raters. Each essay received four scores: one holistic score and three analytic scores corresponding to the domains of task completion, delivery, and language use. Results indicate that although human raters produced more reliable scores overall, LLMs demonstrated reasonable consistency under certain conditions, particularly for story narration tasks. Composite scoring that incorporates both human and AI raters improved reliability, which supports that hybrid scoring models may offer benefits for large-scale writing assessments.
- Abstract(参考訳): 本研究では,大言語モデル (LLMs) の信頼性評価について,AP 中国語・文化エグザムの筆記作業のスコアリングについて検討した。
一般化可能性理論を用いて、この研究は、人間とAIのレーダ間のスコア一貫性を、APチャイナの2種類のフリーレスポンス記述タスク(ストーリーナレーションとメール応答)で評価し、比較する。
これらのエッセイは、2人の訓練された人間レイパーと7人のAIレーナーによって独立して評価された。
各エッセイには4つのスコアがあり、1つの総合的なスコアと3つの分析スコアがタスク完了、納品、言語使用の領域に対応する。
以上の結果から,LLMは,特にストーリーナレーションタスクにおいて,一定の条件下で合理的な整合性を示した。
人間とAIの両方のレーダを組み込んだ複合スコアリングでは信頼性が向上し、ハイブリッドスコアリングモデルが大規模書き込みアセスメントにメリットをもたらす可能性がある。
関連論文リスト
- Machine-assisted writing evaluation: Exploring pre-trained language models in analyzing argumentative moves [28.01557438111706]
縦型学習者コーパスにおける議論行動解析における事前学習言語モデル(PLM)の有効性について検討した。
1643年、中国の235人の英語学習者から引用文の長手コーパスが収集され、6つの移動タイプに注釈付けされる。
その結果,PLMの信頼性は,F1スコアが0.743であり,既存のモデルを上回った。
論文 参考訳(メタデータ) (2025-03-25T02:21:12Z) - Evaluating AI-Generated Essays with GRE Analytical Writing Assessment [15.993966092824335]
本研究は,10個のLLMが生成したエッセイを用いて,研究記録エグゼクティブ(GRE)の分析書面アセスメントについて検討する。
我々はこれらのエッセイを、GREスコアリングパイプラインで用いられるように、人間のレーダとe-rater自動スコアリングエンジンの両方を用いて評価した。
GPT-4oは平均4.78点、GPT-4oは4.67点だった。
論文 参考訳(メタデータ) (2024-10-22T21:30:58Z) - Are Large Language Models Good Essay Graders? [4.134395287621344]
我々は,エッセイの質を評価する上で,Large Language Models (LLMs) を評価する。
我々は,LLMが提供した数値を,ASAPデータセットを用いた人間レーダ提供スコアと比較した。
チャットGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
論文 参考訳(メタデータ) (2024-09-19T23:20:49Z) - Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers [25.268709339109893]
我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。
私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。
GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
論文 参考訳(メタデータ) (2024-03-02T01:52:14Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。