論文の概要: The Hidden Cost of Using Amazon Mechanical Turk for Research
- arxiv url: http://arxiv.org/abs/2101.04459v4
- Date: Thu, 10 Jun 2021 04:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 00:44:38.234251
- Title: The Hidden Cost of Using Amazon Mechanical Turk for Research
- Title(参考訳): amazon mechanical turkを研究に使った隠れたコスト
- Authors: Antonios Saravanos (1), Stavros Zervoudakis (1), Dongnanzi Zheng (1),
Neil Stott (2), Bohdan Hawryluk (1), Donatella Delfino (1) ((1) New York
University, (2) Cambridge Judge Business School)
- Abstract要約: 本研究では,アマゾン・メカニカル・トルク(MTurk)による参加者の注意力について検討した。
我々は、最もエリートなMTurk労働者の間でもかなりの不注意が存在していることを発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we investigate the attentiveness exhibited by participants
sourced through Amazon Mechanical Turk (MTurk), thereby discovering a
significant level of inattentiveness amongst the platform's top crowd workers
(those classified as 'Master', with an 'Approval Rate' of 98% or more, and a
'Number of HITS approved' value of 1,000 or more). A total of 564 individuals
from the United States participated in our experiment. They were asked to read
a vignette outlining one of four hypothetical technology products and then
complete a related survey. Three forms of attention check (logic, honesty, and
time) were used to assess attentiveness. Through this experiment we determined
that a total of 126 (22.3%) participants failed at least one of the three forms
of attention check, with most (94) failing the honesty check - followed by the
logic check (31), and the time check (27). Thus, we established that
significant levels of inattentiveness exist even among the most elite MTurk
workers. The study concludes by reaffirming the need for multiple forms of
carefully crafted attention checks, irrespective of whether participant quality
is presumed to be high according to MTurk criteria such as 'Master', 'Approval
Rate', and 'Number of HITS approved'. Furthermore, we propose that researchers
adjust their proposals to account for the effort and costs required to address
participant inattentiveness.
- Abstract(参考訳): 本研究では,アマゾン・メカニカル・ターク(mturk)に委託された参加者の注意力を調査し,プラットフォームトップの群集作業者(「マスター」に分類され,「承認率」が98%以上,「承認されたヒット数」が1000以上)間に有意な不注意性を見出した。
実験には合計564人の米国人が参加した。
彼らは4つの仮想技術製品のうちの1つを概説するvignetteを読んで、関連する調査を完了するよう求められた。
注意力評価には3種類の注意チェック(論理、正直、時間)が用いられた。
この実験により、合計126名 (22.3%) の参加者が少なくとも3種類の注意チェックのうちの1つに失敗し、ほとんどの (94) が正直なチェックに失敗し、続いて論理チェック (31) とタイムチェック (27) が行われた。
その結果,最もエリートなmturk労働者においても,かなりのレベルの不注意が存在していることがわかった。
本研究は,「マスター」,「承認率」,「HITSのNumber of HITS」などのMTurk基準に基づき,参加者の質が高いと推定されるか否かにかかわらず,複数種類の注意点検の必要性を再確認して結論付けた。
さらに,参加者の不注意に対処するのに必要な労力とコストを考慮し,研究者が提案を調整できることを提案する。
関連論文リスト
- Incorporating Worker Perspectives into MTurk Annotation Practices for
NLP [40.70358114333233]
Amazon Mechanical Turk(MTurk)における自然言語処理のデータ収集に関する現在の実践は、労働者の権利と応答品質の低さに関する問題の影響を受けやすい。
我々は、公正な支払い、労働者のプライバシ、データ品質、労働者インセンティブを考慮したオープンな質問に対処することを目的とした、批判的な文献レビューとMTurkワーカーの調査を行った。
労働者の嗜好はNLP研究者の間では知恵に反することが多い。
論文 参考訳(メタデータ) (2023-11-06T00:06:11Z) - MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised
Learning [90.17500229142755]
第1回マルチモーダル感情認識チャレンジ(MER 2023)は、ACMマルチメディアで成功した。
本稿では、この課題の背景にある動機を紹介し、ベンチマークデータセットを説明し、参加者に関する統計情報を提供する。
この高品質なデータセットは、特に中国の研究コミュニティにとって、マルチモーダルな感情認識の新しいベンチマークになり得ると考えています。
論文 参考訳(メタデータ) (2023-04-18T13:23:42Z) - GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。
サンプルREG試験では,テキストダビンシ003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力が著しく低下していることが判明した。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文 参考訳(メタデータ) (2023-01-11T11:30:42Z) - Biomedical image analysis competitions: The state of current
participation practice [143.52578599912326]
我々は,バイオメディカルイメージング分析の特定の分野におけるアルゴリズム開発の現状を明らかにするための調査を設計した。
この調査は、参加者の専門知識と作業環境、選択した戦略、およびアルゴリズムの特徴をカバーした。
全体として、すべてのソリューションの94%はディープラーニングベースのものだ。そのうち84%は標準アーキテクチャに基づいていた。
論文 参考訳(メタデータ) (2022-12-16T16:44:46Z) - How do Authors' Perceptions of their Papers Compare with Co-authors'
Perceptions and Peer-review Decisions? [87.00095008723181]
著者は論文の受理確率をおよそ3倍過大評価している。
女性作家は、男性作家よりも極端に高い(統計的に重要な)誤校正を示す。
受理された論文と受理された論文の回答者の少なくとも30%は、レビュープロセス後に自身の論文に対する認識が改善したと述べている。
論文 参考訳(メタデータ) (2022-11-22T15:59:30Z) - WebFace260M: A Benchmark for Million-Scale Deep Face Recognition [89.39080252029386]
我々は、未修正4MのID/260Mの顔(WebFace260M)とクリーン2MのID/42Mの顔(WebFace42M)を含む新しい100万スケールの認識ベンチマークに貢献する。
分散フレームワークは、性能を損なうことなく、顔認識モデルを効率的に訓練するために開発された。
提案したベンチマークは、標準、マスク付き、偏見のない顔認識シナリオにおいて大きな可能性を示している。
論文 参考訳(メタデータ) (2022-04-21T14:56:53Z) - 3D High-Fidelity Mask Face Presentation Attack Detection Challenge [79.2407530090659]
大規模なHigh-Fidelity Maskデータセット、すなわちCASIA-SURF HiFiMaskが収集された。
我々は,3次元マスクによる攻撃検出の研究を促進するために,3次元高忠実マスク顔提示検出チャレンジを組織した。
論文 参考訳(メタデータ) (2021-08-16T08:40:12Z) - Face Identification Proficiency Test Designed Using Item Response Theory [5.284353550094401]
Triad Identity Matching (TIM) test is based onstimul difficulty measures based on Item Response Theory (IRT) based on Item Response Theory (IRT)
実験1では, 大学生がTIM検査で広範囲の精度を示した。
IRTベースの項目難易度尺度は、TIMテストを3つの「簡単」サブセットと3つの「難易度」サブセットに分割するために使用された。
論文 参考訳(メタデータ) (2021-06-22T22:37:32Z) - Claim Check-Worthiness Detection as Positive Unlabelled Learning [53.24606510691877]
クレームチェックの信頼性検出はファクトチェックシステムにおいて重要な要素である。
これらの課題の根底にあるクレームチェックの信頼性検出における中心的な課題を照明する。
我々の最良の手法は、正の非競合学習の変種を用いて、これを自動的に修正する統一的なアプローチである。
論文 参考訳(メタデータ) (2020-03-05T16:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。