論文の概要: Has Automated Essay Scoring Reached Sufficient Accuracy? Deriving Achievable QWK Ceilings from Classical Test Theory
- arxiv url: http://arxiv.org/abs/2604.19131v1
- Date: Tue, 21 Apr 2026 06:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.64957
- Title: Has Automated Essay Scoring Reached Sufficient Accuracy? Deriving Achievable QWK Ceilings from Classical Test Theory
- Title(参考訳): 自動評価法は十分正確か?古典的テスト理論から達成可能なQWKシーリングを導出する
- Authors: Masaki Uto,
- Abstract要約: 古典的テスト理論の信頼性概念に基づく2つのデータセット固有のQWK天井を導出する。
理論的な天井は、理想的なAESモデルがラベルノイズの下で達成できる最大QWKである。
人間のような天井は、人間レベルのスコアリング誤差を持つAESモデルで達成可能なQWKである。
- 参考スコア(独自算出の注目度): 0.3722707313671671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated essay scoring (AES) is commonly evaluated on public benchmarks using quadratic weighted kappa (QWK). However, because benchmark labels are assigned by human raters and inevitably contain scoring errors, it remains unclear both what QWK is theoretically attainable and what level is practically sufficient for deployment. We therefore derive two dataset-specific QWK ceilings based on the reliability concept in classical test theory, which can be estimated from standard two-rater benchmarks without additional annotation. The first is the theoretical ceiling: the maximum QWK that an ideal AES model that perfectly predicts latent true scores can achieve under label noise. The second is the human-like ceiling: the QWK attainable by an AES model with human-level scoring error, providing a practical target when AES is intended to replace a single human rater. We further show that human--human QWK, often used as a ceiling reference, can underestimate the true ceiling. Simulation experiments validate the proposed ceilings, and experiments on real benchmarks illustrate how they clarify the current performance and remaining headroom of modern AES models.
- Abstract(参考訳): 自動エッセイスコア(AES)は、一般に2次重み付きカッパ(QWK)を用いて、公開ベンチマークで評価される。
しかしながら、ベンチマークラベルは人間のレーダによって割り当てられており、必然的にスコアリングエラーを含むため、理論上何のQWKが達成可能か、どのレベルが実際にデプロイに十分なのかは明らかになっていない。
そこで我々は古典的テスト理論の信頼性概念に基づく2つのデータセット固有のQWK天井を導出する。
ひとつは理論的な天井であり、ラベルノイズの下で遅延真のスコアを完全に予測する理想的なAESモデルが達成できる最大QWKである。
2つ目は人間のような天井で、QWKは人間レベルのスコアリング誤差を持つAESモデルで達成でき、AESが1人のレートラーを置き換えることを意図している場合に、実用的なターゲットを提供する。
さらに,人間-人-QWKは,天井の基準としてしばしば使用されるが,真の天井を過小評価できることを示す。
シミュレーション実験は提案した天井を検証し、実際のベンチマーク実験は、現代のAESモデルの現在の性能と残余のヘッドルームを明確にする方法を示している。
関連論文リスト
- One Model, Two Minds: Task-Conditioned Reasoning for Unified Image Quality and Aesthetic Assessment [37.98880646905503]
既存の手法では、両方のタスクに同じ推論戦略と報酬を適用するタスク非依存のレシピが採用されていることを示す。
本稿では,各タスクの性質に基づいて後学習を行いながら,視覚言語バックボーンを共有する統合フレームワークであるTATARを提案する。
本研究は,統合された知覚スコアリングのための原則的パラダイムとして,タスク条件付きポストトレーニングを確立した。
論文 参考訳(メタデータ) (2026-03-20T09:14:33Z) - AURA Score: A Metric For Holistic Audio Question Answering Evaluation [57.042210272137396]
AQAメトリクスのシステマティックなベンチマークを可能にするために、AQEvalを導入します。
これはこの種の最初のベンチマークであり、その正確さと妥当性のために、複数の人間が注釈付けした10kモデル応答で構成されている。
第2に、既存のAQAメトリクスをAQEval上で総合的に分析し、人間の判断と弱い相関を明らかにする。
第3に、オープンなモデル応答をよりよく評価するための新しい指標であるAURAスコアを提案する。
論文 参考訳(メタデータ) (2025-10-06T15:41:34Z) - Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。
パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文 参考訳(メタデータ) (2025-09-23T15:32:47Z) - RICA2: Rubric-Informed, Calibrated Assessment of Actions [8.641411594566714]
動作品質評価(AQA)の予測不確かさを考慮に入れた深層確率モデルRICA2を提案する。
本手法はFineDiving, MTL-AQA, JIGSAWSなどの公開ベンチマークにおいて, スコア予測と不確実性校正性能に優れた手法であることを示す。
論文 参考訳(メタデータ) (2024-08-04T20:35:33Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Auto-Encoding Goodness of Fit [9.560668678348579]
We developed a new type of generative autoencoder called the Goodness-of-Fit Autoencoder (GoFAE)。
ミニバッチレベルでは、正規化の目的としてGoFテスト統計を使用する。
よりグローバルなレベルでは、より高い批判に基づいて正規化係数を選択する。
論文 参考訳(メタデータ) (2022-10-12T19:21:57Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。