論文の概要: Improving Performance of Automated Essay Scoring by using
back-translation essays and adjusted scores
- arxiv url: http://arxiv.org/abs/2203.00354v1
- Date: Tue, 1 Mar 2022 11:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 19:14:03.253592
- Title: Improving Performance of Automated Essay Scoring by using
back-translation essays and adjusted scores
- Title(参考訳): 逆翻訳エッセイと調整スコアを用いた自動エッセイスコアリングの性能向上
- Authors: You-Jin Jong (1), Yong-Jin Kim (2), Ok-Chol Ri (1) ((1) Kum Sung
Middle School Number 2, Pyongyang, D.P.R of Korea, (2) Faculty of
Mathematics, KIM IL SUNG University, Pyongyang, D.P.R of Korea)
- Abstract要約: バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増やす手法を提案する。
先行作業から得られたモデルを用いて,拡張データの有効性を評価する。
モデルをトレーニングするために拡張データを使用することで、モデルの性能が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated essay scoring plays an important role in judging students' language
abilities in education. Traditional approaches use handcrafted features to
score and are time-consuming and complicated. Recently, neural network
approaches have improved performance without any feature engineering. Unlike
other natural language processing tasks, only a small number of datasets are
publicly available for automated essay scoring, and the size of the dataset is
not sufficiently large. Considering that the performance of a neural network is
closely related to the size of the dataset, the lack of data limits the
performance improvement of the automated essay scoring model. In this paper, we
proposed a method to increase the number of essay-score pairs using
back-translation and score adjustment and applied it to the Automated Student
Assessment Prize dataset for augmentation. We evaluated the effectiveness of
the augmented data using models from prior work. In addition, performance was
evaluated in a model using long short-term memory, which is widely used for
automated essay scoring. The performance of the models was improved by using
augmented data to train the models.
- Abstract(参考訳): 自動エッセイスコアリングは、学生の教育における言語能力を評価する上で重要な役割を担っている。
従来のアプローチでは、手作りの機能をスコアに使い、時間がかかり複雑です。
近年、ニューラルネットワークアプローチは、機能エンジニアリングなしでパフォーマンスを改善している。
他の自然言語処理タスクとは異なり、エッセイの自動評価には少数のデータセットしか公開されておらず、データセットのサイズは十分に大きくない。
ニューラルネットワークの性能がデータセットのサイズと密接に関連していることを考慮すると、データの欠如は自動エッセイスコアリングモデルの性能改善を制限している。
本稿では,バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増加させる手法を提案し,増補のための自動学生評価賞データセットに適用した。
先行研究から得られたモデルを用いて拡張データの有効性を評価した。
また,エッセイ自動採点に広く用いられている長期短期記憶を用いたモデルにおいて,評価を行った。
モデルのトレーニングに拡張データを使用することで、モデルのパフォーマンスが向上した。
関連論文リスト
- Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Rubric-Specific Approach to Automated Essay Scoring with Augmentation
Training [0.1227734309612871]
本稿では,従来の研究で見過ごされた機能や特徴を学習するために,自動スコアリングモデルの訓練とテストを行う一連のデータ拡張操作を提案する。
自動学生評価賞(Automated Students Assessment Prize)データセットにおいて,最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-09-06T05:51:19Z) - Machine Unlearning for Causal Inference [0.6621714555125157]
モデルが与えられたユーザに関する情報(マシンアンラーニング)の学習/取得の一部を忘れることが重要である。
本稿では、因果推論のための機械学習の概念、特に確率スコアマッチングと治療効果推定について紹介する。
この研究で使用されるデータセットは、ジョブトレーニングプログラムの有効性を評価するために広く使用されているデータセットであるLalondeデータセットである。
論文 参考訳(メタデータ) (2023-08-24T17:27:01Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Toward Educator-focused Automated Scoring Systems for Reading and
Writing [0.0]
本稿では,データとラベルの可用性,信頼性と拡張性,ドメインスコアリング,プロンプトとソースの多様性,伝達学習といった課題に対処する。
モデルトレーニングコストを増大させることなく、エッセイの長さを重要な特徴として保持する技術を採用している。
論文 参考訳(メタデータ) (2021-12-22T15:44:30Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。