論文の概要: Mitigating Bias in Automated Grading Systems for ESL Learners: A Contrastive Learning Approach
- arxiv url: http://arxiv.org/abs/2601.16724v1
- Date: Fri, 23 Jan 2026 13:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.689893
- Title: Mitigating Bias in Automated Grading Systems for ESL Learners: A Contrastive Learning Approach
- Title(参考訳): ESL学習者のための自動グラフ作成システムにおけるバイアスの緩和:コントラスト学習アプローチ
- Authors: Kevin Fan, Eric Yun,
- Abstract要約: 現在のトランスフォーマーに基づく回帰モデルは、主にネイティブスピーカーコーパスに基づいて訓練され、しばしば表面レベルL2言語特徴とエッセイ品質の急激な相関関係を学習する。
本研究では,ASAP 2.0とELIPSEデータセットを用いた細調整DeBERTa-v3モデルのバイアス研究を行う。
我々は17,161個のマッチしたエッセイペアのデータセットを構築し、トリプレット・マージン・ロスを用いてモデルを微調整し、ESLとネイティブ・ライティングの潜在表現を調整した。
- 参考スコア(独自算出の注目度): 1.0055143995729414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Automated Essay Scoring (AES) systems are increasingly used in high-stakes educational settings, concerns regarding algorithmic bias against English as a Second Language (ESL) learners have increased. Current Transformer-based regression models trained primarily on native-speaker corpora often learn spurious correlations between surface-level L2 linguistic features and essay quality. In this study, we conduct a bias study of a fine-tuned DeBERTa-v3 model using the ASAP 2.0 and ELLIPSE datasets, revealing a constrained score scaling for high-proficiency ESL writing where high-proficiency ESL essays receive scores 10.3% lower than Native speaker essays of identical human-rated quality. To mitigate this, we propose applying contrastive learning with a triplet construction strategy: Contrastive Learning with Matched Essay Pairs. We constructed a dataset of 17,161 matched essay pairs and fine-tuned the model using Triplet Margin Loss to align the latent representations of ESL and Native writing. Our approach reduced the high-proficiency scoring disparity by 39.9% (to a 6.2% gap) while maintaining a Quadratic Weighted Kappa (QWK) of 0.76. Post-hoc linguistic analysis suggests the model successfully disentangled sentence complexity from grammatical error, preventing the penalization of valid L2 syntactic structures.
- Abstract(参考訳): AES(Automated Essay Scoring)システムは、ハイテイクな教育環境での利用が増えているため、第二言語学習者としての英語に対するアルゴリズムバイアスに関する懸念が高まっている。
現在のトランスフォーマーに基づく回帰モデルは、主にネイティブスピーカーコーパスに基づいて訓練され、しばしば表面レベルL2言語特徴とエッセイ品質の急激な相関関係を学習する。
本研究では,ASAP 2.0 と ELLIPSE データセットを用いたDeBERTa-v3 モデルのバイアススタディを行い,高能率ESLエッセイが同一品質のネイティブ話者エッセイよりも10.3%低いスコアを受信する高能率ESL作成のための制約付きスコアスケーリングを明らかにする。
これを軽減するために,三重項構成戦略を用いたコントラスト学習(Contrastive Learning with Matched Essay Pairs)を提案する。
我々は17,161個のマッチしたエッセイペアのデータセットを構築し、トリプレット・マージン・ロスを用いてモデルを微調整し、ESLとネイティブ・ライティングの潜在表現を調整した。
提案手法は, 擬似重み付きカッパ(QWK)の0.76を維持しながら, 高習熟度スコアの差を39.9%減らした。
ポストホック言語分析は、このモデルが文法的誤りから文の複雑さを解き、有効なL2構文構造のペナル化を防ぐことを示唆している。
関連論文リスト
- BLiSS 1.0: Evaluating Bilingual Learner Competence in Second Language Small Language Models [10.028672903585777]
BLiSS 1.0はLearner Interlingual Syntactic Structureのベンチマークである。
モデルが、一致した人工的なエラーよりも、自然主義的な学習者エラーを見つけるかどうかをテストする。
この目的のために136,867個の制御された三脚(修正,学習,人工)を提供する。
論文 参考訳(メタデータ) (2025-10-22T09:42:01Z) - An Evaluation Study of Hybrid Methods for Multilingual PII Detection [0.026059379504241156]
本稿では,決定論的正規表現と文脈認識型大規模言語モデル(LLM)を組み合わせて,スケーラブルなPII検出を行うRECAPを提案する。
重み付きF1スコアでは,NERモデルでは82%,ゼロショットLLMでは17%の精度で性能が向上した。
この作業は、コンプライアンスにフォーカスしたアプリケーションにおいて、効率的なPII検出のためのスケーラブルで適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-08T21:03:59Z) - LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data [5.021795689551854]
LESS (Large Language Model Enhanced Semi-supervised Learning) は、Large Language Models (LLMs) を用いて、アプリ内で生成された擬似ラベルを補正する汎用的なフレームワークである。
マンダリンASRとスペイン語と英語のAST評価で、LESSは一貫して利益を上げている。
私たちはこのレシピをオープンソースとしてリリースし、この分野のさらなる研究を支援しています。
論文 参考訳(メタデータ) (2025-06-05T03:00:04Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。
我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。
本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T02:03:28Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。