論文の概要: Leveraging Human Feedback to Scale Educational Datasets: Combining
Crowdworkers and Comparative Judgement
- arxiv url: http://arxiv.org/abs/2305.12894v1
- Date: Mon, 22 May 2023 10:22:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:52:32.696084
- Title: Leveraging Human Feedback to Scale Educational Datasets: Combining
Crowdworkers and Comparative Judgement
- Title(参考訳): 人的フィードバックを活用して教育データセットをスケールする:群集労働者と比較判断を組み合わせる
- Authors: Owen Henkel Libby Hills
- Abstract要約: 本稿では,非専門的なクラウドワーカーを用いた2つの実験と,学生データ評価のための比較判断について報告する。
比較判定を用いることで,両タスク間の信頼性が大幅に向上することが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning models have many potentially beneficial applications in
education settings, but a key barrier to their development is securing enough
data to train these models. Labelling educational data has traditionally relied
on highly skilled raters using complex, multi-class rubrics, making the process
expensive and difficult to scale. An alternative, more scalable approach could
be to use non-expert crowdworkers to evaluate student work, however,
maintaining sufficiently high levels of accuracy and inter-rater reliability
when using non-expert workers is challenging. This paper reports on two
experiments investigating using non-expert crowdworkers and comparative
judgement to evaluate complex student data. Crowdworkers were hired to evaluate
student responses to open-ended reading comprehension questions. Crowdworkers
were randomly assigned to one of two conditions: the control, where they were
asked to decide whether answers were correct or incorrect (i.e., a categorical
judgement), or the treatment, where they were shown the same question and
answers, but were instead asked to decide which of two candidate answers was
more correct (i.e., a comparative/preference-based judgement). We found that
using comparative judgement substantially improved inter-rater reliability on
both tasks. These results are in-line with well-established literature on the
benefits of comparative judgement in the field of educational assessment, as
well as with recent trends in artificial intelligence research, where
comparative judgement is becoming the preferred method for providing human
feedback on model outputs when working with non-expert crowdworkers. However,
to our knowledge, these results are novel and important in demonstrating the
beneficial effects of using the combination of comparative judgement and
crowdworkers to evaluate educational data.
- Abstract(参考訳): 機械学習モデルは、教育環境では有益かもしれない多くの応用があるが、彼らの開発における鍵となる障壁は、これらのモデルを訓練するための十分なデータを確保することである。
教育データのラベル付けは、伝統的に複雑で多層的なルーブリックを使用して高度に熟練したレートラーに依存しており、プロセスは高価でスケールが困難である。
代わりに、よりスケーラブルなアプローチは、非専門家のクラウドワーカーを使って学生の作業を評価することであるが、非専門家の作業を行う場合、十分な高いレベルの正確さと信頼性を維持することは困難である。
本稿では,非熟練の群集作業員を用いた2つの実験と,複雑な学生データを評価するための比較判断について報告する。
オープンエンドの読解質問に対する学生の反応を評価するために、群衆労働者が雇われた。
群集労働者は2つの条件のうちの1つにランダムに割り当てられた: 対照: 答えが正しいか正しくないか(すなわちカテゴリー判断)、あるいは治療、同じ質問と回答を提示されたが、その代わりに2つの候補回答のうちどちらが正しいかを決定するように求められた(すなわち、比較/基準に基づく判断)。
比較判定により,両タスクの信頼性は大幅に向上した。
これらの結果は、教育評価の分野における比較判断の利点に関する確立された文献や、非熟練のクラウドワーカーと作業する際にモデルアウトプットに人的フィードバックを提供する手段として比較判断が好まれる人工知能研究の最近のトレンドと合致している。
しかし, これらの結果は, 比較判断とクラウドワーカーの併用による教育データ評価の有効効果を示す上で, 新規かつ重要なものである。
関連論文リスト
- Mitigating Observation Biases in Crowdsourced Label Aggregation [19.460509608096217]
クラウドソーシングから高品質な結果を得るための技術的課題の1つは、それが人間であるという事実によって引き起こされる変動性とバイアスを扱うことである。
本研究では,クラウドソーシングにおける観察バイアスに着目した。
作業者のレスポンスの頻度とタスクの複雑さの変化は、集約結果に影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-02-25T15:19:13Z) - Assisting Human Decisions in Document Matching [52.79491990823573]
我々は,意思決定者のパフォーマンスを向上する支援情報の種類を評価するためのプロキシマッチングタスクを考案した。
ブラックボックスモデルによる説明を提供することで,マッチング作業におけるユーザの精度が低下することが判明した。
一方,タスク固有のデシラタに密接に対応するように設計されたカスタムメソッドは,ユーザのパフォーマンス向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-02-16T17:45:20Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - A Comparative User Study of Human Predictions in Algorithm-Supported
Recidivism Risk Assessment [2.097880645003119]
本研究では,犯罪リスク予測を支援するために,アルゴリズムに基づくリスク評価装置を用いた効果について検討する。
刑務所から釈放された人が新たな犯罪を犯し、再投獄されるかどうかを予測する。
論文 参考訳(メタデータ) (2022-01-26T17:40:35Z) - What Ingredients Make for an Effective Crowdsourcing Protocol for
Difficult NLU Data Collection Tasks? [31.39009622826369]
我々は、データ品質を改善する方法として、先行研究で提案された介入の有効性を比較した。
我々は,NLU例の難易度を高めるための非効率なスタンドアロン戦略として,実例の説明書を書くよう労働者に求めていることを見出した。
専門家評価を伴う反復的プロトコルからのデータは、いくつかの尺度によりより困難であることが観察された。
論文 参考訳(メタデータ) (2021-06-01T21:05:52Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Predicting respondent difficulty in web surveys: A machine-learning
approach based on mouse movement features [3.6944296923226316]
本稿では,マウス追跡データの予測値について,回答者の難易度について検討する。
我々は、回答者の就業履歴と人口統計情報に関する調査データを用いている。
そこで,本研究では,基本マウスの行動を調整するパーソナライズ手法を開発し,その性能を評価する。
論文 参考訳(メタデータ) (2020-11-05T10:54:33Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z) - The World is Not Binary: Learning to Rank with Grayscale Data for
Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。
本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。
3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文 参考訳(メタデータ) (2020-04-06T06:34:54Z) - Studying the Effects of Cognitive Biases in Evaluation of Conversational
Agents [10.248512149493443]
我々は,77人のクラウドソース労働者を対象に,人間に会話エージェントのアウトプットを評価するよう依頼されたとき,認知バイアスの役割,特に偏見を抑えるための調査を行った。
2つの実験条件における評価の整合性の向上は、バイアスのアンカーの結果である可能性がある。
論文 参考訳(メタデータ) (2020-02-18T23:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。