論文の概要: Does Continued Pretraining on a Learner Corpus Improve Automated Essay Scoring on English Proficiency Tests? Evidence from EFCAMDAT
- arxiv url: http://arxiv.org/abs/2605.25924v1
- Date: Mon, 25 May 2026 15:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.345788
- Title: Does Continued Pretraining on a Learner Corpus Improve Automated Essay Scoring on English Proficiency Tests? Evidence from EFCAMDAT
- Title(参考訳): 英語能力試験における学習者コーパスの事前訓練は自動評価を改善するか? EFCAMDATによる証拠
- Authors: Duy Anh Nguyen,
- Abstract要約: 本研究では,ドメイン適応型継続事前学習が変圧器を用いた自動エッセイスコアを向上するかどうかを検討する。
フルコーパスDAPTは、モデル、データセット、メトリクス間で混合結果を生成する。
異なる英語の習熟度テストデータセット間での転送性を自動的に改善するものではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent automated essay scoring (AES) studies increasingly use pretrained transformer models, but these models are usually pretrained on general-domain English and may under-represent second-language learner writing. This study investigates whether domain-adaptive continued pretraining (DAPT) on the EFCAMDAT learner corpus improves transformer-based AES for English proficiency tests. We apply DAPT to three transformer encoders and evaluate them on FCE and IELTS in both in-domain scoring and few-shot cross-dataset transfer. Full-corpus DAPT produces mixed results across models, datasets, and metrics. Further analyses suggest that these mixed effects are partly explained by mismatches in proficiency, genre, and communicative purpose between EFCAMDAT and the downstream datasets. A proficiency-based ablation shows that targeted DAPT using CEFR-aligned subsets improves downstream scoring more reliably than full-corpus DAPT, especially for FCE with B1--B2 data. However, these gains do not consistently improve cross-dataset transfer. Overall, the findings suggest that continued pretraining on a learner-writing corpus can benefit in-domain AES for English assessment when the pretraining data is sufficiently aligned with the downstream assessment settings. However, it does not automatically improve transferability across different English proficiency test datasets.
- Abstract(参考訳): 最近の自動エッセイスコアリング(AES)研究では、事前訓練されたトランスフォーマーモデルの利用が増えているが、これらのモデルは通常、一般ドメイン英語で事前訓練されており、第二言語学習者の記述が不足している可能性がある。
本研究では、EFCAMDAT学習者コーパスにおけるドメイン適応型継続事前学習(DAPT)が、英語の習熟度テストにおいてトランスフォーマーに基づくAESを改善するかどうかを検討する。
DAPTを3つの変圧器エンコーダに適用し、FCEおよびIELTS上で、ドメイン内スコアリングと少数ショットのクロスデータセット転送の両方で評価する。
フルコーパスDAPTは、モデル、データセット、メトリクス間で混合結果を生成する。
さらに分析したところ、これらの混合効果は、EFCAMDATと下流データセット間の熟練度、ジャンル、コミュニケーション目的のミスマッチによって部分的に説明されていることが示唆された。
習熟度に基づくアブレーションにより、CEFRアライメントサブセットを用いたDAPTが、特にB1-B2データを持つFCEにおいて、フルコーパスDAPTよりもダウンストリームスコアをより確実に向上することが示された。
しかし、これらの利得は、常にデータセット間の転送を改善するわけではない。
全体として,学習者コーパスにおける事前学習は,事前学習データが下流評価設定と十分に一致している場合に,英語評価においてドメイン内AESの恩恵を受ける可能性が示唆された。
しかし、異なる英語の習熟度テストデータセット間での転送性を自動的に改善するわけではない。
関連論文リスト
- Incentivizing Parametric Knowledge via Reinforcement Learning with Verifiable Rewards for Cross-Cultural Entity Translation [68.85147984815778]
本稿では, EA-RLVR(Entity-Anchored Reinforcement Learning with Verifiable Rewards)を提案する。
EA-RLVRは、検証可能なエンティティレベルの報酬信号の監視をアンカーし、最適化を安定させるために軽量な構造ゲートを組み込む。
EA-RLVRをXC-Translate上で評価し、エンティティ翻訳精度とドメイン外一般化の両面で一貫した改善を観察する。
論文 参考訳(メタデータ) (2026-04-18T07:15:43Z) - EvalYaks: Instruction Tuning Datasets and LoRA Fine-tuned Models for Automated Scoring of CEFR B2 Speaking Assessment Transcripts [0.0]
EvalYaks と呼ばれるモデル群を開発し,CEFR B2 を英語で評価・評価する。
EvalYaksは平均許容精度96%、変量0.35の精度を達成し、次のベストモデルの3倍の精度で実行された。
論文 参考訳(メタデータ) (2024-08-22T08:57:31Z) - Unlocking Bias Detection: Leveraging Transformer-Based Models for Content Analysis [1.8692054990918079]
CBDT (Contextualized Bi-Directional Dual Transformer) textcolorgreenfaLeaf 分類器を提案する。
テキスト内のバイアスを特定し、特定するために、これらのモデルをトレーニングするためのデータセットを用意しました。
様々なデータセットを用いて評価した結果, CBDT のテキストカラーグリーンの有効性は, 偏りのある物語と中性な物語を区別し, 特定の偏りのある言葉を識別する上で有効であることがわかった。
論文 参考訳(メタデータ) (2023-09-30T12:06:04Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data
Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。
公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文 参考訳(メタデータ) (2023-03-02T12:18:53Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。