論文の概要: Unveiling the Tapestry of Automated Essay Scoring: A Comprehensive
Investigation of Accuracy, Fairness, and Generalizability
- arxiv url: http://arxiv.org/abs/2401.05655v1
- Date: Thu, 11 Jan 2024 04:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:56:46.316296
- Title: Unveiling the Tapestry of Automated Essay Scoring: A Comprehensive
Investigation of Accuracy, Fairness, and Generalizability
- Title(参考訳): 自動エッセイスコアリングのタペストリー : 正確性,公平性,一般化性に関する包括的調査
- Authors: Kaixun Yang, Mladen Rakovi\'c, Yuyang Li, Quanlong Guan, Dragan
Ga\v{s}evi\'c, Guanliang Chen
- Abstract要約: 本研究では, AESモデルの精度, 公平性, 一般化可能性の複雑な関係を明らかにすることを目的とする。
我々は,9つのAES手法を評価し,その性能をオープンソースデータセット上で7つの指標を用いて評価した。
- 参考スコア(独自算出の注目度): 5.426458555881673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Essay Scoring (AES) is a well-established educational pursuit that
employs machine learning to evaluate student-authored essays. While much effort
has been made in this area, current research primarily focuses on either (i)
boosting the predictive accuracy of an AES model for a specific prompt (i.e.,
developing prompt-specific models), which often heavily relies on the use of
the labeled data from the same target prompt; or (ii) assessing the
applicability of AES models developed on non-target prompts to the intended
target prompt (i.e., developing the AES models in a cross-prompt setting).
Given the inherent bias in machine learning and its potential impact on
marginalized groups, it is imperative to investigate whether such bias exists
in current AES methods and, if identified, how it intervenes with an AES
model's accuracy and generalizability. Thus, our study aimed to uncover the
intricate relationship between an AES model's accuracy, fairness, and
generalizability, contributing practical insights for developing effective AES
models in real-world education. To this end, we meticulously selected nine
prominent AES methods and evaluated their performance using seven metrics on an
open-sourced dataset, which contains over 25,000 essays and various demographic
information about students such as gender, English language learner status, and
economic status. Through extensive evaluations, we demonstrated that: (1)
prompt-specific models tend to outperform their cross-prompt counterparts in
terms of predictive accuracy; (2) prompt-specific models frequently exhibit a
greater bias towards students of different economic statuses compared to
cross-prompt models; (3) in the pursuit of generalizability, traditional
machine learning models coupled with carefully engineered features hold greater
potential for achieving both high accuracy and fairness than complex neural
network models.
- Abstract(参考訳): 自動エッセイスコアリング(automatic essay scoring, aes)は、学生が書いたエッセイを評価するために機械学習を用いる、確立された教育的追求である。
この領域では多くの努力がなされているが、現在の研究は主にどちらかに焦点を当てている。
(i)特定のプロンプト(即ち、プロンプト固有のモデルを開発する)に対するaesモデルの予測精度を高めること。これはしばしば、同じターゲットプロンプトからのラベル付きデータの使用に大きく依存する。
(II)非ターゲットプロンプト上で開発されたAESモデルの適用性を評価する(即ち、クロスプロンプト設定でAESモデルを開発する)。
機械学習の固有のバイアスと、その潜在的影響が辺縁化グループに与える影響を考えると、そのようなバイアスが現在のAES法に存在しているかどうか、そしてもし特定されれば、それがAESモデルの精度と一般化可能性にどのように介入するかを調べることが不可欠である。
そこで本研究では, AESモデルの精度, 公平性, 一般化可能性の複雑な関係を明らかにすることを目的として, 実世界教育における効果的なAESモデル開発のための実践的洞察を提供した。
そこで我々は,9つの顕著なAES手法を慎重に選択し,オープンソースデータセット上で7つの指標を用いて評価した。
Through extensive evaluations, we demonstrated that: (1) prompt-specific models tend to outperform their cross-prompt counterparts in terms of predictive accuracy; (2) prompt-specific models frequently exhibit a greater bias towards students of different economic statuses compared to cross-prompt models; (3) in the pursuit of generalizability, traditional machine learning models coupled with carefully engineered features hold greater potential for achieving both high accuracy and fairness than complex neural network models.
関連論文リスト
- From Efficiency to Equity: Measuring Fairness in Preference Learning [3.2132738637761027]
不平等とロウルシアン正義の経済理論に触発された嗜好学習モデルの公平性を評価する。
Gini Coefficient, Atkinson Index, Kuznets Ratio を用いて,これらのモデルの公平性を定量化するための指標を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:25:56Z) - FAIREDU: A Multiple Regression-Based Method for Enhancing Fairness in Machine Learning Models for Educational Applications [1.24497353837144]
本稿では,複数機能にまたがる公平性向上を目的とした,新規かつ効果的な手法であるFAIREDUを紹介する。
モデル性能を損なうことなく公平性を向上するためのFAIREDUの有効性を評価する。
その結果, FAIREDUは, 性別, 人種, 年齢, その他の繊細な特徴の交叉性に対処し, モデル精度に最小限の影響を伴って, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T23:29:24Z) - Phrase-Level Adversarial Training for Mitigating Bias in Neural Network-based Automatic Essay Scoring [0.0]
本稿では,AESモデルのバイアスとロバスト性に対処する逆エッセイセットを生成するための,モデルに依存しないフレーズレベル手法を提案する。
実験の結果, 提案手法は, 逆例やシナリオの存在下で, AESモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-07T11:22:35Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Do we need to go Deep? Knowledge Tracing with Big Data [5.218882272051637]
教育分野で公開されている最大の学生インタラクションデータセットであるEdNetを使用して、深層モデルと従来のモデルの両方が将来の学生のパフォーマンスを正確に予測する方法を理解しています。
我々の研究は、慎重に設計された特徴を持つロジスティック回帰モデルが広範な実験から深いモデルよりも優れていることを観察する。
論文 参考訳(メタデータ) (2021-01-20T22:40:38Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Predicting Engagement in Video Lectures [24.415345855402624]
本稿では,文脈に依存しないエンゲージメントを予測するための,ビデオ講義の大規模データセットを提案する。
この課題を達成するために、クロスモーダルとモダリティ固有の特徴セットを提案する。
データ不足の場合、我々のアプローチを実演する。
論文 参考訳(メタデータ) (2020-05-31T19:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。