論文の概要: Enhancing Automated Essay Scoring with Three Techniques: Two-Stage Fine-Tuning, Score Alignment, and Self-Training
- arxiv url: http://arxiv.org/abs/2602.01747v1
- Date: Mon, 02 Feb 2026 07:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.978844
- Title: Enhancing Automated Essay Scoring with Three Techniques: Two-Stage Fine-Tuning, Score Alignment, and Self-Training
- Title(参考訳): 2段階ファインチューニング、スコアアライメント、セルフトレーニングの3つのテクニックによる自動評価の強化
- Authors: Hongseok Choi, Serynn Kim, Wencke Liermann, Jin Seong, Jin-Xia Huang,
- Abstract要約: 本研究では,制限データとフルデータの両方でAES性能を向上させる新しい手法を提案する。
我々は、低ランク適応を活用して、エッセイのプロンプトをターゲットとしたAESモデルをより良く適応する2段階微調整戦略を導入する。
次に,予測値と真のスコア分布の整合性を改善するためのスコアアライメント手法を提案する。
第3に、未ラベルデータを用いた不確実性を考慮した自己学習を採用し、擬似ラベルデータを用いてトレーニングセットを効果的に拡張する。
- 参考スコア(独自算出の注目度): 3.800498098285221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Essay Scoring (AES) plays a crucial role in education by providing scalable and efficient assessment tools. However, in real-world settings, the extreme scarcity of labeled data severely limits the development and practical adoption of robust AES systems. This study proposes a novel approach to enhance AES performance in both limited-data and full-data settings by introducing three key techniques. First, we introduce a Two-Stage fine-tuning strategy that leverages low-rank adaptations to better adapt an AES model to target prompt essays. Second, we introduce a Score Alignment technique to improve consistency between predicted and true score distributions. Third, we employ uncertainty-aware self-training using unlabeled data, effectively expanding the training set with pseudo-labeled samples while mitigating label noise propagation. We implement above three key techniques on DualBERT. We conduct extensive experiments on the ASAP++ dataset. As a result, in the 32-data setting, all three key techniques improve performance, and their integration achieves 91.2% of the full-data performance trained on approximately 1,000 labeled samples. In addition, the proposed Score Alignment technique consistently improves performance in both limited-data and full-data settings: e.g., it achieves state-of-the-art results in the full-data setting when integrated into DualBERT.
- Abstract(参考訳): AES(Automated Essay Scoring)は、スケーラブルで効率的な評価ツールを提供することによって、教育において重要な役割を果たす。
しかし、実世界の環境では、ラベル付きデータの極端な不足は、堅牢なAESシステムの開発と実践を著しく制限する。
本研究は,3つの鍵となる手法を導入することにより,制限データとフルデータ設定の両方においてAES性能を向上させる新しい手法を提案する。
まず、低ランク適応を活用して、エッセイのプロンプトをターゲットとしたAESモデルをより良く適応する2段階微調整戦略を提案する。
次に,予測値と真のスコア分布の整合性を改善するためのスコアアライメント手法を提案する。
第3に、ラベル付きデータを用いた不確実性を考慮した自己学習を採用し、ラベル付きノイズ伝搬を緩和しながら擬似ラベル付きサンプルを用いてトレーニングセットを効果的に拡張する。
DualBERTには3つの重要なテクニックが実装されている。
我々はASAP++データセットについて広範な実験を行う。
その結果、32データ設定では、3つの重要なテクニックがすべてパフォーマンスを改善し、その統合によって約1,000のラベル付きサンプルでトレーニングされた完全なデータパフォーマンスの91.2%が達成された。
さらに、提案したスコアアライメント技術は、リミテッドデータとフルデータ設定の両方のパフォーマンスを一貫して改善する。
関連論文リスト
- Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - LA3: Efficient Label-Aware AutoAugment [23.705059658590436]
本稿では,ラベル情報を利用した新しい2段階データ拡張アルゴリズムであるラベル認識自動拡張(LA3)を提案する。
LA3は2つの学習段階から構成されており、第1段階ではラベルごとに個別の拡張手法を評価してランク付けする。
第2段階では、有効性の選択と相補的な増強から複合増強ポリシーを構築し、性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-04-20T13:42:18Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。