論文の概要: Agreement Between Large Language Models and Human Raters in Essay Scoring: A Research Synthesis
- arxiv url: http://arxiv.org/abs/2512.14561v1
- Date: Tue, 16 Dec 2025 16:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.792401
- Title: Agreement Between Large Language Models and Human Raters in Essay Scoring: A Research Synthesis
- Title(参考訳): Essay Scoringにおける大規模言語モデルとヒューマンレーダの一致:研究合成
- Authors: Hongli Li, Che Han Chen, Kevin Fan, Chiho Young-Johnson, Soyoung Lim, Yali Feng,
- Abstract要約: 自動エッセイスコアリング(AES)における大規模言語モデル(LLM)と人間レーダの一致について検討した。
調査全体を通じて、LSM-人的合意は概して中程度から良好であり、合意の指標は0.30から0.80の範囲であった。
合意水準の実質的変動は, 研究固有の要因の違いや, 標準化された報告慣行の欠如を反映して, 研究全体で観察された。
- 参考スコア(独自算出の注目度): 4.086449731896867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing promise of large language models (LLMs) in automatic essay scoring (AES), empirical findings regarding their reliability compared to human raters remain mixed. Following the PRISMA 2020 guidelines, we synthesized 65 published and unpublished studies from January 2022 to August 2025 that examined agreement between LLMs and human raters in AES. Across studies, reported LLM-human agreement was generally moderate to good, with agreement indices (e.g., Quadratic Weighted Kappa, Pearson correlation, and Spearman's rho) mostly ranging between 0.30 and 0.80. Substantial variability in agreement levels was observed across studies, reflecting differences in study-specific factors as well as the lack of standardized reporting practices. Implications and directions for future research are discussed.
- Abstract(参考訳): 自動エッセイ評価(AES)における大規模言語モデル(LLM)の期待は高まっているものの、人間のラテンダーと比較して信頼性に関する実証的な知見は相変わらず混在している。
PRISMA 2020のガイドラインに従い,2022年1月から2025年8月までに65件の論文を合成し,ALMとAESにおけるヒトアレーナーの合意について検討した。
研究全体を通じて、LSM-人的合意は概して適度に良好であり、合意指標(例えば、準重み付きカッパ、ピアソン相関、スピアマンのロー)は0.30から0.80の範囲であった。
合意水準の実質的変動は, 研究固有の要因の違いや, 標準化された報告慣行の欠如を反映して, 研究全体で観察された。
今後の研究の意図と方向性について論じる。
関連論文リスト
- Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - The Hidden Link Between RLHF and Contrastive Learning [56.45346439723488]
RLHF(Reinforcement Learning from Human Feedback)とDPO(Simple Direct Preference Optimization)は相互情報(MI)の観点から解釈可能であることを示す。
このフレームワーク内では、RLHFとDPOの両方を、ベースモデルから派生した正と負のサンプルに基づいて対照的な学習を行う方法として解釈することができる。
そこで本稿では,DPO で観測される選択的傾向の後期的低下を軽減するための相互情報最適化 (MIO) を提案する。
論文 参考訳(メタデータ) (2025-06-27T18:51:25Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。
これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文 参考訳(メタデータ) (2024-10-28T15:33:37Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Pcc-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual Similarity [3.435381469869212]
センテンス表現法は,SentEval の 7 つの STS ベンチマークにおいて,平均 86 のスピアマン相関スコアに達した。
Pearsonの相関係数を損失関数として用いたPcc-tuningを提案する。
実験結果から, Pcc-tuning は, 微粒化アノテートを最小限に抑えながら, 従来の最先端戦略を著しく上回り得ることが示された。
論文 参考訳(メタデータ) (2024-06-14T07:40:07Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。