Fugu-MT 論文翻訳(概要): Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems

論文の概要: Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems

arxiv url: http://arxiv.org/abs/2007.06796v5
Date: Sun, 14 Nov 2021 15:11:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 13:30:24.866698
Title: Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems
Title（参考訳）: 自動評価システムにおけるロバストネス試験のための評価ツールキット
Authors: Anubha Kabra, Mehar Bhatia, Yaman Kumar, Junyi Jessy Li, Rajiv Ratn Shah
Abstract要約: モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
参考スコア（独自算出の注目度）: 64.4896118325552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic scoring engines have been used for scoring approximately fifteen million test-takers in just the last three years. This number is increasing further due to COVID-19 and the associated automation of education and testing. Despite such wide usage, the AI-based testing literature of these "intelligent" models is highly lacking. Most of the papers proposing new models rely only on quadratic weighted kappa (QWK) based agreement with human raters for showing model efficacy. However, this effectively ignores the highly multi-feature nature of essay scoring. Essay scoring depends on features like coherence, grammar, relevance, sufficiency and, vocabulary. To date, there has been no study testing Automated Essay Scoring: AES systems holistically on all these features. With this motivation, we propose a model agnostic adversarial evaluation scheme and associated metrics for AES systems to test their natural language understanding capabilities and overall robustness. We evaluate the current state-of-the-art AES models using the proposed scheme and report the results on five recent models. These models range from feature-engineering-based approaches to the latest deep learning algorithms. We find that AES models are highly overstable. Even heavy modifications(as much as 25%) with content unrelated to the topic of the questions do not decrease the score produced by the models. On the other hand, irrelevant content, on average, increases the scores, thus showing that the model evaluation strategy and rubrics should be reconsidered. We also ask 200 human raters to score both an original and adversarial response to seeing if humans can detect differences between the two and whether they agree with the scores assigned by auto scores.
Abstract（参考訳）: 自動スコアリングエンジンは、過去3年間に約1500万人のテストテイクパーのスコアに使われてきた。新型コロナウイルスと関連する教育とテストの自動化により、この数はさらに増えている。このような広範囲な使用にもかかわらず、これらの「知性」モデルのAIベースのテスト文献は非常に不足している。新たなモデルを提案する論文の多くは、モデルの有効性を示すために、人間のレーナーとの2次重み付けカッパ(QWK)に基づく合意にのみ依存している。しかし、これはエッセイスコアの多機能性を無視している。評価はコヒーレンス、文法、関連性、十分性、語彙などの特徴に依存する。これまでは、Automated Essay Scoring: AESシステムは、これらの機能をすべてホリシックにテストしていません。このモチベーションを生かして,AESシステムの自然言語理解能力と全体的な堅牢性をテストするための,モデル非依存の逆評価手法と関連する指標を提案する。提案手法を用いて現状のAESモデルを評価し,最新の5つのモデルについて報告する。これらのモデルは、機能工学に基づくアプローチから最新のディープラーニングアルゴリズムまで幅広い。 AESモデルは極めて過大評価されている。質問のトピックに関係のない内容の重い修正(25%まで)でさえ、モデルが生成したスコアを低下させることはない。一方,無関係な内容は平均的にスコアを増大させ,モデル評価戦略とルーリックを再考すべきであることを示す。また,200人のレイパーに対して,両者の違いを検知できるかどうか,オートスコアに割り当てられたスコアに一致するかどうかを確認するために,原点と反対点の両方の反応を採点するよう求めた。

関連論文リスト

Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文参考訳（メタデータ） (2025-05-28T12:03:09Z)
Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文参考訳（メタデータ） (2025-05-13T18:50:03Z)
Rank-Then-Score: Enhancing Large Language Models for Automated Essay Scoring [6.459215652021233]
大規模言語モデルに基づく微調整フレームワークであるRange-Then-Score (RTS)を提案する。 HSKとASAPという2つのベンチマークデータセットの実験結果は、RTSが平均QWKで直接プロンプト(Vanilla)法を一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-04-08T07:10:51Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Auditing an Automatic Grading Model with deep Reinforcement Learning [0.0]
自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。人間の評価に対する高いレベルの合意は、ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
論文参考訳（メタデータ） (2024-05-11T20:07:09Z)
Transformer-based Joint Modelling for Automatic Essay Scoring and Off-Topic Detection [3.609048819576875]
我々は、エッセイを共同でスコア付けし、非トピックエッセイを検出する、教師なしのテクニックを提案している。提案手法は,2つのエッセイ・スコリング・データセットに対して,作成したベースラインと従来手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-03-24T21:44:14Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。 FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文参考訳（メタデータ） (2022-06-22T09:27:31Z)
Improving Performance of Automated Essay Scoring by using back-translation essays and adjusted scores [0.0]
バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増やす手法を提案する。先行作業から得られたモデルを用いて,拡張データの有効性を評価する。モデルをトレーニングするために拡張データを使用することで、モデルの性能が向上した。
論文参考訳（メタデータ） (2022-03-01T11:05:43Z)
Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文参考訳（メタデータ） (2021-11-17T05:00:51Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
Get It Scored Using AutoSAS -- An Automated System for Scoring Short Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。 SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。 AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文参考訳（メタデータ） (2020-12-21T10:47:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。