論文の概要: Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems
- arxiv url: http://arxiv.org/abs/2007.06796v5
- Date: Sun, 14 Nov 2021 15:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:30:24.866698
- Title: Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems
- Title(参考訳): 自動評価システムにおけるロバストネス試験のための評価ツールキット
- Authors: Anubha Kabra, Mehar Bhatia, Yaman Kumar, Junyi Jessy Li, Rajiv Ratn
Shah
- Abstract要約: モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
- 参考スコア(独自算出の注目度): 64.4896118325552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic scoring engines have been used for scoring approximately fifteen
million test-takers in just the last three years. This number is increasing
further due to COVID-19 and the associated automation of education and testing.
Despite such wide usage, the AI-based testing literature of these "intelligent"
models is highly lacking. Most of the papers proposing new models rely only on
quadratic weighted kappa (QWK) based agreement with human raters for showing
model efficacy. However, this effectively ignores the highly multi-feature
nature of essay scoring. Essay scoring depends on features like coherence,
grammar, relevance, sufficiency and, vocabulary. To date, there has been no
study testing Automated Essay Scoring: AES systems holistically on all these
features. With this motivation, we propose a model agnostic adversarial
evaluation scheme and associated metrics for AES systems to test their natural
language understanding capabilities and overall robustness. We evaluate the
current state-of-the-art AES models using the proposed scheme and report the
results on five recent models. These models range from
feature-engineering-based approaches to the latest deep learning algorithms. We
find that AES models are highly overstable. Even heavy modifications(as much as
25%) with content unrelated to the topic of the questions do not decrease the
score produced by the models. On the other hand, irrelevant content, on
average, increases the scores, thus showing that the model evaluation strategy
and rubrics should be reconsidered. We also ask 200 human raters to score both
an original and adversarial response to seeing if humans can detect differences
between the two and whether they agree with the scores assigned by auto scores.
- Abstract(参考訳): 自動スコアリングエンジンは、過去3年間に約1500万人のテストテイクパーのスコアに使われてきた。
新型コロナウイルスと関連する教育とテストの自動化により、この数はさらに増えている。
このような広範囲な使用にもかかわらず、これらの「知性」モデルのAIベースのテスト文献は非常に不足している。
新たなモデルを提案する論文の多くは、モデルの有効性を示すために、人間のレーナーとの2次重み付けカッパ(QWK)に基づく合意にのみ依存している。
しかし、これはエッセイスコアの多機能性を無視している。
評価はコヒーレンス、文法、関連性、十分性、語彙などの特徴に依存する。
これまでは、Automated Essay Scoring: AESシステムは、これらの機能をすべてホリシックにテストしていません。
このモチベーションを生かして,AESシステムの自然言語理解能力と全体的な堅牢性をテストするための,モデル非依存の逆評価手法と関連する指標を提案する。
提案手法を用いて現状のAESモデルを評価し,最新の5つのモデルについて報告する。
これらのモデルは、機能工学に基づくアプローチから最新のディープラーニングアルゴリズムまで幅広い。
AESモデルは極めて過大評価されている。
質問のトピックに関係のない内容の重い修正(25%まで)でさえ、モデルが生成したスコアを低下させることはない。
一方,無関係な内容は平均的にスコアを増大させ,モデル評価戦略とルーリックを再考すべきであることを示す。
また,200人のレイパーに対して,両者の違いを検知できるかどうか,オートスコアに割り当てられたスコアに一致するかどうかを確認するために,原点と反対点の両方の反応を採点するよう求めた。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Auditing an Automatic Grading Model with deep Reinforcement Learning [0.0]
自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。
人間の評価に対する高いレベルの合意は、ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
論文 参考訳(メタデータ) (2024-05-11T20:07:09Z) - Transformer-based Joint Modelling for Automatic Essay Scoring and Off-Topic Detection [3.609048819576875]
我々は、エッセイを共同でスコア付けし、非トピックエッセイを検出する、教師なしのテクニックを提案している。
提案手法は,2つのエッセイ・スコリング・データセットに対して,作成したベースラインと従来手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-24T21:44:14Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Improving Performance of Automated Essay Scoring by using
back-translation essays and adjusted scores [0.0]
バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増やす手法を提案する。
先行作業から得られたモデルを用いて,拡張データの有効性を評価する。
モデルをトレーニングするために拡張データを使用することで、モデルの性能が向上した。
論文 参考訳(メタデータ) (2022-03-01T11:05:43Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。