論文の概要: Balancing Cost and Quality: An Exploration of Human-in-the-loop
Frameworks for Automated Short Answer Scoring
- arxiv url: http://arxiv.org/abs/2206.08288v1
- Date: Thu, 16 Jun 2022 16:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 15:02:08.919448
- Title: Balancing Cost and Quality: An Exploration of Human-in-the-loop
Frameworks for Automated Short Answer Scoring
- Title(参考訳): コストと品質のバランス - 短い回答自動スコアリングのためのヒューマン・イン・ザ・ループフレームワークの探索
- Authors: Hiroaki Funayama, Tasuku Sato, Yuichiroh Matsubayashi, Tomoya
Mizumoto, Jun Suzuki and Kentaro Inui
- Abstract要約: 短い回答スコアリング(英: Short answer score、SAS)とは、学習者によって書かれた短いテキストを段階的に評価するタスクである。
本稿では,グルーピングコストを最小化するためのHuman-in-the-loopフレームワークの利用について検討する。
提案手法により,自動スコアリングモデルと人間のグリーマーによる目標スコアリング品質の達成が可能となった。
- 参考スコア(独自算出の注目度): 36.58449231222223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short answer scoring (SAS) is the task of grading short text written by a
learner. In recent years, deep-learning-based approaches have substantially
improved the performance of SAS models, but how to guarantee high-quality
predictions still remains a critical issue when applying such models to the
education field. Towards guaranteeing high-quality predictions, we present the
first study of exploring the use of human-in-the-loop framework for minimizing
the grading cost while guaranteeing the grading quality by allowing a SAS model
to share the grading task with a human grader. Specifically, by introducing a
confidence estimation method for indicating the reliability of the model
predictions, one can guarantee the scoring quality by utilizing only
predictions with high reliability for the scoring results and casting
predictions with low reliability to human graders. In our experiments, we
investigate the feasibility of the proposed framework using multiple confidence
estimation methods and multiple SAS datasets. We find that our
human-in-the-loop framework allows automatic scoring models and human graders
to achieve the target scoring quality.
- Abstract(参考訳): short answer scoring (sas) は、学習者によって書かれた短いテキストを採点するタスクである。
近年、深層学習に基づくアプローチは、SASモデルの性能を大幅に向上させているが、そのようなモデルを教育分野に適用する場合、高品質な予測を保証する方法が依然として重要な課題である。
高品質な予測の確保に向けて,SASモデルで評価タスクを人間のグルーパーと共有させることにより,評価品質を確保しつつ,評価コストを最小化するためのヒューマン・イン・ザ・ループ・フレームワークの活用を初めて検討する。
具体的には、モデル予測の信頼性を示す信頼度推定手法を導入することにより、スコアリング結果に対する信頼性の高い予測と、ヒトグレーダに対する信頼性の低い鋳造予測のみを利用して、スコア品質の保証を行うことができる。
本研究では,複数の信頼度推定手法と複数のSASデータセットを用いて提案手法の有効性を検討する。
提案手法により,自動スコアリングモデルと人間のグリーマーによる目標スコアリング品質の達成が可能となった。
関連論文リスト
- GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - On Uncertainty Calibration and Selective Generation in Probabilistic
Neural Summarization: A Benchmark Study [14.041071717005362]
要約のための最新のディープモデルは、優れたベンチマーク性能を得るが、誤校正された予測の不確実性を生成する傾向にある。
これは、低品質の予測に高い信頼性を割り当て、現実世界のアプリケーションにおける信頼性と信頼性を損なうことを意味する。
確率的深層学習法は誤校正問題の一般的な解法であるが, 複雑な自己回帰的要約タスクにおける相対的有効性はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-17T23:06:28Z) - Robust Deep Learning for Autonomous Driving [0.0]
モデル信頼度を確実に推定する新しい基準を導入する:真のクラス確率(TCP)
真のクラスは本質的にテスト時に未知であるため、補助モデルを用いてデータからTCPの基準を学習し、この文脈に適応した特定の学習スキームを導入することを提案する。
本研究は, 既知モデルに基づく新たな不確実性尺度を導入することで, 誤分類と分布外サンプルを共同で検出する課題に対処する。
論文 参考訳(メタデータ) (2022-11-14T22:07:11Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Task-Specific Normalization for Continual Learning of Blind Image
Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。
このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。
我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。
最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文 参考訳(メタデータ) (2021-07-28T15:21:01Z) - Confidence Estimation via Auxiliary Models [47.08749569008467]
モデル信頼のための新しいターゲット基準、すなわち真のクラス確率(TCP)を紹介します。
標準最大クラス確率 (MCP) よりも TCP が信頼度推定に優れた特性を提供することを示す。
論文 参考訳(メタデータ) (2020-12-11T17:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。