論文の概要: Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems
- arxiv url: http://arxiv.org/abs/2007.06796v5
- Date: Sun, 14 Nov 2021 15:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:30:24.866698
- Title: Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems
- Title(参考訳): 自動評価システムにおけるロバストネス試験のための評価ツールキット
- Authors: Anubha Kabra, Mehar Bhatia, Yaman Kumar, Junyi Jessy Li, Rajiv Ratn
Shah
- Abstract要約: モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
- 参考スコア(独自算出の注目度): 64.4896118325552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic scoring engines have been used for scoring approximately fifteen
million test-takers in just the last three years. This number is increasing
further due to COVID-19 and the associated automation of education and testing.
Despite such wide usage, the AI-based testing literature of these "intelligent"
models is highly lacking. Most of the papers proposing new models rely only on
quadratic weighted kappa (QWK) based agreement with human raters for showing
model efficacy. However, this effectively ignores the highly multi-feature
nature of essay scoring. Essay scoring depends on features like coherence,
grammar, relevance, sufficiency and, vocabulary. To date, there has been no
study testing Automated Essay Scoring: AES systems holistically on all these
features. With this motivation, we propose a model agnostic adversarial
evaluation scheme and associated metrics for AES systems to test their natural
language understanding capabilities and overall robustness. We evaluate the
current state-of-the-art AES models using the proposed scheme and report the
results on five recent models. These models range from
feature-engineering-based approaches to the latest deep learning algorithms. We
find that AES models are highly overstable. Even heavy modifications(as much as
25%) with content unrelated to the topic of the questions do not decrease the
score produced by the models. On the other hand, irrelevant content, on
average, increases the scores, thus showing that the model evaluation strategy
and rubrics should be reconsidered. We also ask 200 human raters to score both
an original and adversarial response to seeing if humans can detect differences
between the two and whether they agree with the scores assigned by auto scores.
- Abstract(参考訳): 自動スコアリングエンジンは、過去3年間に約1500万人のテストテイクパーのスコアに使われてきた。
新型コロナウイルスと関連する教育とテストの自動化により、この数はさらに増えている。
このような広範囲な使用にもかかわらず、これらの「知性」モデルのAIベースのテスト文献は非常に不足している。
新たなモデルを提案する論文の多くは、モデルの有効性を示すために、人間のレーナーとの2次重み付けカッパ(QWK)に基づく合意にのみ依存している。
しかし、これはエッセイスコアの多機能性を無視している。
評価はコヒーレンス、文法、関連性、十分性、語彙などの特徴に依存する。
これまでは、Automated Essay Scoring: AESシステムは、これらの機能をすべてホリシックにテストしていません。
このモチベーションを生かして,AESシステムの自然言語理解能力と全体的な堅牢性をテストするための,モデル非依存の逆評価手法と関連する指標を提案する。
提案手法を用いて現状のAESモデルを評価し,最新の5つのモデルについて報告する。
これらのモデルは、機能工学に基づくアプローチから最新のディープラーニングアルゴリズムまで幅広い。
AESモデルは極めて過大評価されている。
質問のトピックに関係のない内容の重い修正(25%まで)でさえ、モデルが生成したスコアを低下させることはない。
一方,無関係な内容は平均的にスコアを増大させ,モデル評価戦略とルーリックを再考すべきであることを示す。
また,200人のレイパーに対して,両者の違いを検知できるかどうか,オートスコアに割り当てられたスコアに一致するかどうかを確認するために,原点と反対点の両方の反応を採点するよう求めた。
関連論文リスト
- Unveiling the Tapestry of Automated Essay Scoring: A Comprehensive
Investigation of Accuracy, Fairness, and Generalizability [5.426458555881673]
本研究では, AESモデルの精度, 公平性, 一般化可能性の複雑な関係を明らかにすることを目的とする。
我々は,9つのAES手法を評価し,その性能をオープンソースデータセット上で7つの指標を用いて評価した。
論文 参考訳(メタデータ) (2024-01-11T04:28:02Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Evaluating Correctness and Faithfulness of Instruction-Following Models
for Question Answering [18.13594377768088]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文 参考訳(メタデータ) (2023-07-31T17:41:00Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Improving Performance of Automated Essay Scoring by using
back-translation essays and adjusted scores [0.0]
バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増やす手法を提案する。
先行作業から得られたモデルを用いて,拡張データの有効性を評価する。
モデルをトレーニングするために拡張データを使用することで、モデルの性能が向上した。
論文 参考訳(メタデータ) (2022-03-01T11:05:43Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。