論文の概要: Unveiling the Tapestry of Automated Essay Scoring: A Comprehensive
Investigation of Accuracy, Fairness, and Generalizability
- arxiv url: http://arxiv.org/abs/2401.05655v1
- Date: Thu, 11 Jan 2024 04:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:56:46.316296
- Title: Unveiling the Tapestry of Automated Essay Scoring: A Comprehensive
Investigation of Accuracy, Fairness, and Generalizability
- Title(参考訳): 自動エッセイスコアリングのタペストリー : 正確性,公平性,一般化性に関する包括的調査
- Authors: Kaixun Yang, Mladen Rakovi\'c, Yuyang Li, Quanlong Guan, Dragan
Ga\v{s}evi\'c, Guanliang Chen
- Abstract要約: 本研究では, AESモデルの精度, 公平性, 一般化可能性の複雑な関係を明らかにすることを目的とする。
我々は,9つのAES手法を評価し,その性能をオープンソースデータセット上で7つの指標を用いて評価した。
- 参考スコア(独自算出の注目度): 5.426458555881673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Essay Scoring (AES) is a well-established educational pursuit that
employs machine learning to evaluate student-authored essays. While much effort
has been made in this area, current research primarily focuses on either (i)
boosting the predictive accuracy of an AES model for a specific prompt (i.e.,
developing prompt-specific models), which often heavily relies on the use of
the labeled data from the same target prompt; or (ii) assessing the
applicability of AES models developed on non-target prompts to the intended
target prompt (i.e., developing the AES models in a cross-prompt setting).
Given the inherent bias in machine learning and its potential impact on
marginalized groups, it is imperative to investigate whether such bias exists
in current AES methods and, if identified, how it intervenes with an AES
model's accuracy and generalizability. Thus, our study aimed to uncover the
intricate relationship between an AES model's accuracy, fairness, and
generalizability, contributing practical insights for developing effective AES
models in real-world education. To this end, we meticulously selected nine
prominent AES methods and evaluated their performance using seven metrics on an
open-sourced dataset, which contains over 25,000 essays and various demographic
information about students such as gender, English language learner status, and
economic status. Through extensive evaluations, we demonstrated that: (1)
prompt-specific models tend to outperform their cross-prompt counterparts in
terms of predictive accuracy; (2) prompt-specific models frequently exhibit a
greater bias towards students of different economic statuses compared to
cross-prompt models; (3) in the pursuit of generalizability, traditional
machine learning models coupled with carefully engineered features hold greater
potential for achieving both high accuracy and fairness than complex neural
network models.
- Abstract(参考訳): 自動エッセイスコアリング(automatic essay scoring, aes)は、学生が書いたエッセイを評価するために機械学習を用いる、確立された教育的追求である。
この領域では多くの努力がなされているが、現在の研究は主にどちらかに焦点を当てている。
(i)特定のプロンプト(即ち、プロンプト固有のモデルを開発する)に対するaesモデルの予測精度を高めること。これはしばしば、同じターゲットプロンプトからのラベル付きデータの使用に大きく依存する。
(II)非ターゲットプロンプト上で開発されたAESモデルの適用性を評価する(即ち、クロスプロンプト設定でAESモデルを開発する)。
機械学習の固有のバイアスと、その潜在的影響が辺縁化グループに与える影響を考えると、そのようなバイアスが現在のAES法に存在しているかどうか、そしてもし特定されれば、それがAESモデルの精度と一般化可能性にどのように介入するかを調べることが不可欠である。
そこで本研究では, AESモデルの精度, 公平性, 一般化可能性の複雑な関係を明らかにすることを目的として, 実世界教育における効果的なAESモデル開発のための実践的洞察を提供した。
そこで我々は,9つの顕著なAES手法を慎重に選択し,オープンソースデータセット上で7つの指標を用いて評価した。
Through extensive evaluations, we demonstrated that: (1) prompt-specific models tend to outperform their cross-prompt counterparts in terms of predictive accuracy; (2) prompt-specific models frequently exhibit a greater bias towards students of different economic statuses compared to cross-prompt models; (3) in the pursuit of generalizability, traditional machine learning models coupled with carefully engineered features hold greater potential for achieving both high accuracy and fairness than complex neural network models.
関連論文リスト
- Comparing Feature Engineering and End-to-End Deep Learning for Autism
Spectrum Disorder Assessment based on Fullbody-Tracking [0.0]
我々は、複数のモータータスクと両方の分類手法を用いて訓練されたモデルを備えたバーチャルリアリティ環境を開発する。
比較分析の結果、手作りの機能は、特定のタスクにおけるディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-24T14:56:36Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - A Comprehensive Review of Trends, Applications and Challenges In
Out-of-Distribution Detection [0.76146285961466]
アウト・オブ・ディストリビューション・データ・サブセットの検出とより包括的な一般化の実現に焦点をあてた研究分野が誕生した。
多くのディープラーニングベースのモデルは、ベンチマークデータセットでほぼ完璧な結果を得たため、これらのモデルの信頼性と信頼性を評価する必要性は、これまで以上に強く感じられる。
本稿では,本分野における70以上の論文のレビューに加えて,今後の研究の課題と方向性を提示するとともに,データシフトの多種多様さを統一的に把握し,より一般化するためのソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-26T18:13:14Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - BEDS-Bench: Behavior of EHR-models under Distributional Shift--A
Benchmark [21.040754460129854]
OOD設定下でのEHRデータ上でのMLモデルの振る舞いを定量化するベンチマークであるBEDS-Benchをリリースする。
BEDS-Bench の学習アルゴリズムを複数評価した結果,一般に分布シフト下での一般化性能の低下が判明した。
論文 参考訳(メタデータ) (2021-07-17T05:53:24Z) - Do we need to go Deep? Knowledge Tracing with Big Data [5.218882272051637]
教育分野で公開されている最大の学生インタラクションデータセットであるEdNetを使用して、深層モデルと従来のモデルの両方が将来の学生のパフォーマンスを正確に予測する方法を理解しています。
我々の研究は、慎重に設計された特徴を持つロジスティック回帰モデルが広範な実験から深いモデルよりも優れていることを観察する。
論文 参考訳(メタデータ) (2021-01-20T22:40:38Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Predicting Engagement in Video Lectures [24.415345855402624]
本稿では,文脈に依存しないエンゲージメントを予測するための,ビデオ講義の大規模データセットを提案する。
この課題を達成するために、クロスモーダルとモダリティ固有の特徴セットを提案する。
データ不足の場合、我々のアプローチを実演する。
論文 参考訳(メタデータ) (2020-05-31T19:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。