論文の概要: Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards
- arxiv url: http://arxiv.org/abs/2409.17472v1
- Date: Thu, 26 Sep 2024 02:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:28:14.089952
- Title: Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards
- Title(参考訳): Scoring-aware Multiple Rewards を用いた強化学習による自己回帰的マルチトレイ評価
- Authors: Heejin Do, Sangwon Ryu, Gary Geunbae Lee,
- Abstract要約: スコアリング対応マルチリワード強化学習(SaMRL)を提案する。
SaMRLは、QWKに基づく報酬を、マルチトレートAESに対する平均2乗誤差ペナルティで設計することで、実際の評価スキームをトレーニングプロセスに統合する。
- 参考スコア(独自算出の注目度): 5.632624116225276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in automated essay scoring (AES) have shifted towards evaluating multiple traits to provide enriched feedback. Like typical AES systems, multi-trait AES employs the quadratic weighted kappa (QWK) to measure agreement with human raters, aligning closely with the rating schema; however, its non-differentiable nature prevents its direct use in neural network training. In this paper, we propose Scoring-aware Multi-reward Reinforcement Learning (SaMRL), which integrates actual evaluation schemes into the training process by designing QWK-based rewards with a mean-squared error penalty for multi-trait AES. Existing reinforcement learning (RL) applications in AES are limited to classification models despite associated performance degradation, as RL requires probability distributions; instead, we adopt an autoregressive score generation framework to leverage token generation probabilities for robust multi-trait score predictions. Empirical analyses demonstrate that SaMRL facilitates model training, notably enhancing scoring of previously inferior prompts.
- Abstract(参考訳): 自動エッセイスコア(AES)の最近の進歩は、豊富なフィードバックを提供するために、複数の特性の評価に移行している。
一般的なAESシステムと同様に、マルチトレイAESは、人間のレーティングスキーマと密接に一致して、人間のラッカーとの合意を測定するために2次重み付きカッパ(QWK)を使用しているが、その非微分性は、ニューラルネットワークトレーニングにおいて直接の使用を妨げている。
本稿では,QWKに基づく報酬と平均二乗誤差ペナルティを設計し,実評価スキームをトレーニングプロセスに統合したScoring-aware Multi-Reward Reinforcement Learning (SaMRL)を提案する。
AESにおける既存の強化学習(RL)アプリケーションは、RLが確率分布を必要とするため、関連する性能劣化にもかかわらず分類モデルに限られる。
経験的分析により、SaMRLはモデルトレーニングを促進することが示され、特に以前に劣ったプロンプトのスコアが向上する。
関連論文リスト
- Phrase-Level Adversarial Training for Mitigating Bias in Neural Network-based Automatic Essay Scoring [0.0]
本稿では,AESモデルのバイアスとロバスト性に対処する逆エッセイセットを生成するための,モデルに依存しないフレーズレベル手法を提案する。
実験の結果, 提案手法は, 逆例やシナリオの存在下で, AESモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-07T11:22:35Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Autoregressive Score Generation for Multi-trait Essay Scoring [8.531986117865946]
自動エッセイスコア(AES)におけるマルチトレイスコア(ArTS)の自動回帰予測を提案する。
先行回帰法や分類法とは異なり、AESをスコア生成タスクとして再定義し、単一のモデルで複数のスコアを予測する。
実験の結果、ArTSの有効性が証明され、プロンプトと形質の両方で平均5%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-13T08:34:53Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Automated Essay Scoring Using Transformer Models [0.415623340386296]
自動エッセイスコアリング(AES)におけるトランスフォーマーに基づくアプローチの検討
本稿では,BOWアプローチに基づくロジスティック回帰モデルと比較し,それらの差について考察する。
このようなモデルが、人間のレーダの精度を高めるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T17:09:47Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。