論文の概要: Artificial Intelligence Bias on English Language Learners in Automatic Scoring
- arxiv url: http://arxiv.org/abs/2505.10643v2
- Date: Mon, 19 May 2025 21:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.386627
- Title: Artificial Intelligence Bias on English Language Learners in Automatic Scoring
- Title(参考訳): 音声認識における英語学習者の人工知能バイアス
- Authors: Shuchen Guo, Yun Wang, Jichao Yu, Xuansheng Wu, Bilgehan Ayik, Field M. Watts, Ehsan Latif, Ninghao Liu, Lei Liu, Xiaoming Zhai,
- Abstract要約: 我々は,ELからの応答,(2)非ELLからの応答,(3)現実のELLと非ELLの比率を反映した混合データセット,(4)両グループの同じ表現を持つバランスの取れた混合データセットの4つのデータセットを用いて,BERTを微調整した。
ELと非ELL間の平均スコアギャップ(MSG)を測定し,人間モデルとAIモデルの両方で生成されたMSGの差を計算し,スコアの相違を同定した。
トレーニングデータセットが大きいと、ERと非ELLのAIバイアスや歪んだ相違は見つからないことがわかった。
- 参考スコア(独自算出の注目度): 23.76046619016318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigated potential scoring biases and disparities toward English Language Learners (ELLs) when using automatic scoring systems for middle school students' written responses to science assessments. We specifically focus on examining how unbalanced training data with ELLs contributes to scoring bias and disparities. We fine-tuned BERT with four datasets: responses from (1) ELLs, (2) non-ELLs, (3) a mixed dataset reflecting the real-world proportion of ELLs and non-ELLs (unbalanced), and (4) a balanced mixed dataset with equal representation of both groups. The study analyzed 21 assessment items: 10 items with about 30,000 ELL responses, five items with about 1,000 ELL responses, and six items with about 200 ELL responses. Scoring accuracy (Acc) was calculated and compared to identify bias using Friedman tests. We measured the Mean Score Gaps (MSGs) between ELLs and non-ELLs and then calculated the differences in MSGs generated through both the human and AI models to identify the scoring disparities. We found that no AI bias and distorted disparities between ELLs and non-ELLs were found when the training dataset was large enough (ELL = 30,000 and ELL = 1,000), but concerns could exist if the sample size is limited (ELL = 200).
- Abstract(参考訳): 本研究では,中学生の科学評価に対する回答自動採点システムを用いた英語学習者に対する潜在的採点バイアスと相違について検討した。
特に、ELとの非バランスなトレーニングデータが、バイアスや格差の評価にどのように貢献するかを検討することに重点を置いています。
我々は,(1) ELLからの応答,(2) 非ELLからの応答,(3) ELLと非ELLの実際の比率を反映した混合データセット,(4) 両グループを等しく表現したバランスの取れた混合データセットの4つのデータセットを用いて,BERTを微調整した。
調査では、約30,000 ELL応答の10項目、約1,000 ELL応答の5項目、約200 ELL応答の6項目の21項目を分析した。
スコアリング精度 (Acc) を算出し, フリードマン試験による偏差の同定と比較した。
ELと非ELL間の平均スコアギャップ(MSG)を測定し,人間モデルとAIモデルの両方で生成されたMSGの差を計算し,スコアの相違を同定した。
トレーニングデータセットが十分に大きい(ELL = 30,000 と ELL = 1,000)場合には,AIバイアスや非ELLとの歪みの相違は見つからなかったが,サンプルサイズが制限された(ELL = 200)場合には,懸念が生じる可能性がある。
関連論文リスト
- AI Gender Bias, Disparities, and Fairness: Does Training Data Matter? [3.509963616428399]
この研究は、人工知能(AI)におけるジェンダー問題に関する広範囲にわたる課題について考察する。
それは、6つの評価項目で男女1000人以上の学生の反応を分析する。
その結果,混合学習モデルのスコアリング精度は,男性モデルと女性モデルとでは有意な差があることが示唆された。
論文 参考訳(メタデータ) (2023-12-17T22:37:06Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Fairness in Cardiac MR Image Analysis: An Investigation of Bias Due to
Data Imbalance in Deep Learning Based Segmentation [1.6386696247541932]
AIにおける「フェアネス」とは、人種や性別などの人口統計特性に基づいて、潜在的なバイアスのアルゴリズムを評価することを指す。
近年, 心MR領域の深層学習(DL)が注目されているが, それらの妥当性についてはまだ研究されていない。
異なる人種集団間でDiceのパフォーマンスに統計的に有意な差が認められた。
論文 参考訳(メタデータ) (2021-06-23T13:27:35Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。