論文の概要: Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees
- arxiv url: http://arxiv.org/abs/2111.08906v1
- Date: Wed, 17 Nov 2021 05:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 15:05:04.757055
- Title: Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees
- Title(参考訳): サンプリングによる保証付き自動スコアシステムの性能評価と改善
- Authors: Yaman Kumar Singla, Sriram Krishna, Rajiv Ratn Shah, Changyou Chen
- Abstract要約: 本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
- 参考スコア(独自算出の注目度): 63.62448343531963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Scoring (AS), the natural language processing task of scoring
essays and speeches in an educational testing setting, is growing in popularity
and being deployed across contexts from government examinations to companies
providing language proficiency services. However, existing systems either forgo
human raters entirely, thus harming the reliability of the test, or score every
response by both human and machine thereby increasing costs. We target the
spectrum of possible solutions in between, making use of both humans and
machines to provide a higher quality test while keeping costs reasonable to
democratize access to AS. In this work, we propose a combination of the
existing paradigms, sampling responses to be scored by humans intelligently. We
propose reward sampling and observe significant gains in accuracy (19.80%
increase on average) and quadratic weighted kappa (QWK) (25.60% on average)
with a relatively small human budget (30% samples) using our proposed sampling.
The accuracy increase observed using standard random and importance sampling
baselines are 8.6% and 12.2% respectively. Furthermore, we demonstrate the
system's model agnostic nature by measuring its performance on a variety of
models currently deployed in an AS setting as well as pseudo models. Finally,
we propose an algorithm to estimate the accuracy/QWK with statistical
guarantees (Our code is available at https://git.io/J1IOy).
- Abstract(参考訳): 教育試験環境でエッセイやスピーチを採点する自然言語処理タスクであるAutomated Scoring(AS)が人気を博し、政府の試験から言語能力サービスを提供している企業まで、さまざまな状況に展開されている。
しかし、既存のシステムは人間のレーダを完全に禁止し、テストの信頼性を損なうか、人間と機械の両方の反応を全て得点することでコストを増大させる。
我々は、ASへのアクセスを民主化するためにコストを合理的に保ちつつ、高い品質のテストを提供するために、人間と機械の両方を利用して、可能なソリューションのスペクトルを目標としています。
そこで本研究では,従来のパラダイムと組み合わせて,人間がインテリジェントに収集する応答をサンプリングする手法を提案する。
提案手法では, 平均で19.80%の精度向上と2次重み付きkappa (qwk) (平均で25.60%) と, 比較的少ない人的予算 (30%のサンプル) が得られた。
標準ランダムサンプリングベースラインと重要サンプリングベースラインで観察される精度は、それぞれ8.6%と12.2%である。
さらに,AS設定で現在展開されている各種モデルと擬似モデルの性能を計測することにより,システムのモデル非依存性を実証する。
最後に,統計的保証によって精度/qwkを推定するアルゴリズムを提案する(我々のコードはhttps://git.io/j1ioyで利用可能)。
関連論文リスト
- It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives [40.197673152937256]
統計性能モデルのトレーニングは、しばしば大量のデータを必要とするため、かなりの時間的投資となり、ハードウェアの可用性が制限された場合に困難になる。
本稿では,精度を保ちながらトレーニングサンプル数を著しく削減する性能モデリング手法を提案する。
その結果,単層推定では0.02%,トレーニングサンプル10000点未満では0.68%という平均絶対誤差(MAPE)が得られた。
論文 参考訳(メタデータ) (2024-06-12T15:34:28Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Balancing Cost and Quality: An Exploration of Human-in-the-loop
Frameworks for Automated Short Answer Scoring [36.58449231222223]
短い回答スコアリング(英: Short answer score、SAS)とは、学習者によって書かれた短いテキストを段階的に評価するタスクである。
本稿では,グルーピングコストを最小化するためのHuman-in-the-loopフレームワークの利用について検討する。
提案手法により,自動スコアリングモデルと人間のグリーマーによる目標スコアリング品質の達成が可能となった。
論文 参考訳(メタデータ) (2022-06-16T16:43:18Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - IQDet: Instance-wise Quality Distribution Sampling for Object Detection [25.31113751275204]
IQDet と呼ばれるインスタンス型サンプリング戦略を備えた高密度オブジェクト検出器を提案する。
私たちの最高のモデルは51.6 APを達成し、既存のすべての最先端のワンステージディテクタを上回り、推論時間で完全にコストフリーです。
論文 参考訳(メタデータ) (2021-04-14T15:57:22Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。