論文の概要: Enhancing Marker Scoring Accuracy through Ordinal Confidence Modelling in Educational Assessments
- arxiv url: http://arxiv.org/abs/2505.23315v1
- Date: Thu, 29 May 2025 10:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.808335
- Title: Enhancing Marker Scoring Accuracy through Ordinal Confidence Modelling in Educational Assessments
- Title(参考訳): 教育評価における正規信頼モデルによるマーカスコアの精度向上
- Authors: Abhirup Chakravarty, Mark Brenchley, Trevor Breakspear, Ian Lewin, Yan Huang,
- Abstract要約: AES(Automated Essay Scoring)における重要な倫理的課題は、高い信頼性基準を満たす場合にのみスコアが解放されることを保証することである。
信頼モデリングは信頼度スコアという形で信頼度推定尺度を各自動スコアに割り当てることでこの問題に対処する。
AESが生成したスコアが適切なCEFRレベルに候補を正しく配置するかどうかを予測する。
- 参考スコア(独自算出の注目度): 3.1314606441770563
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A key ethical challenge in Automated Essay Scoring (AES) is ensuring that scores are only released when they meet high reliability standards. Confidence modelling addresses this by assigning a reliability estimate measure, in the form of a confidence score, to each automated score. In this study, we frame confidence estimation as a classification task: predicting whether an AES-generated score correctly places a candidate in the appropriate CEFR level. While this is a binary decision, we leverage the inherent granularity of the scoring domain in two ways. First, we reformulate the task as an n-ary classification problem using score binning. Second, we introduce a set of novel Kernel Weighted Ordinal Categorical Cross Entropy (KWOCCE) loss functions that incorporate the ordinal structure of CEFR labels. Our best-performing model achieves an F1 score of 0.97, and enables the system to release 47% of scores with 100% CEFR agreement and 99% with at least 95% CEFR agreement -compared to approximately 92% (approx.) CEFR agreement from the standalone AES model where we release all AM predicted scores.
- Abstract(参考訳): AES(Automated Essay Scoring)における重要な倫理的課題は、高い信頼性基準を満たす場合にのみスコアが解放されることを保証することである。
信頼モデリングは信頼度スコアという形で信頼度推定尺度を各自動スコアに割り当てることでこの問題に対処する。
本研究では,AESが生成したスコアが適切なCEFRレベルに候補を正しく配置するかどうかを予測し,信頼度推定を分類タスクとして設定する。
これは二項決定であるが、スコアリング領域の本質的な粒度を2つの方法で活用する。
まず、スコアビンニングを用いたn-ary分類問題としてタスクを再構築する。
第2に,CEFRラベルの順序構造を組み込んだ新規なKWOCCE(Kernel Weighted Ordinical Cross Entropy)の損失関数を導入する。
我々の最高性能モデルはF1スコア0.97を達成し、100%CEFR合意で47%、少なくとも95%CEFR合意で99%を、スタンドアローンAESモデルで約92%(近似)CEFR合意でリリースし、AM予測スコアを全てリリースすることができる。
関連論文リスト
- FedCert: Federated Accuracy Certification [8.34167718121698]
フェデレートラーニング(FL)は、機械学習モデルを分散的にトレーニングするための強力なパラダイムとして登場した。
従来の研究では、認定精度に基づいて、集中訓練におけるモデルの有効性を評価してきた。
本研究では,FLシステムのロバスト性を評価するためのFedCertという手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T01:19:09Z) - OATH: Efficient and Flexible Zero-Knowledge Proofs of End-to-End ML Fairness [13.986886689256128]
Zero-Knowledge Proofs of Fairnessは、サービスプロバイダが彼らのモデルが多様な人口動態を公平に提供できることを検証することによって、フェアネスの非準拠に対処する。
OATHはクライアント対面通信とオフライン監査フェーズを効果的にデプロイできるフレームワークである。
OATHは、ニューラルネットワークZKPoFの以前の作業よりも、ランタイムを1343倍改善し、はるかに大きなモデルにスケールアップする。
論文 参考訳(メタデータ) (2024-09-17T16:00:35Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Accurate and Reliable Confidence Estimation Based on Non-Autoregressive
End-to-End Speech Recognition System [42.569506907182706]
従来のエンドツーエンド(E2E)ベースの信頼度推定モデル(CEM)は、入力書き起こしと等しい長さのスコアシーケンスを予測する。
本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するために,CIF-Aligned confidence Estimation Model (CA-CEM)を提案する。
論文 参考訳(メタデータ) (2023-05-18T03:34:50Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Uncertainty-inspired Open Set Learning for Retinal Anomaly
Identification [71.06194656633447]
9つの網膜条件の基底像をトレーニングし,不確実性に着想を得たオープンセット(UIOS)モデルを構築した。
しきい値戦略を持つUIOSモデルはF1スコア99.55%、97.01%、91.91%を達成した。
UIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要があることを示唆した。
論文 参考訳(メタデータ) (2023-04-08T10:47:41Z) - Adversarial Training with Rectified Rejection [114.83821848791206]
本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
論文 参考訳(メタデータ) (2021-05-31T08:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。