論文の概要: The Hidden Cost of Using Amazon Mechanical Turk for Research
- arxiv url: http://arxiv.org/abs/2101.04459v4
- Date: Thu, 10 Jun 2021 04:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 00:44:38.234251
- Title: The Hidden Cost of Using Amazon Mechanical Turk for Research
- Title(参考訳): amazon mechanical turkを研究に使った隠れたコスト
- Authors: Antonios Saravanos (1), Stavros Zervoudakis (1), Dongnanzi Zheng (1),
Neil Stott (2), Bohdan Hawryluk (1), Donatella Delfino (1) ((1) New York
University, (2) Cambridge Judge Business School)
- Abstract要約: 本研究では,アマゾン・メカニカル・トルク(MTurk)による参加者の注意力について検討した。
我々は、最もエリートなMTurk労働者の間でもかなりの不注意が存在していることを発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we investigate the attentiveness exhibited by participants
sourced through Amazon Mechanical Turk (MTurk), thereby discovering a
significant level of inattentiveness amongst the platform's top crowd workers
(those classified as 'Master', with an 'Approval Rate' of 98% or more, and a
'Number of HITS approved' value of 1,000 or more). A total of 564 individuals
from the United States participated in our experiment. They were asked to read
a vignette outlining one of four hypothetical technology products and then
complete a related survey. Three forms of attention check (logic, honesty, and
time) were used to assess attentiveness. Through this experiment we determined
that a total of 126 (22.3%) participants failed at least one of the three forms
of attention check, with most (94) failing the honesty check - followed by the
logic check (31), and the time check (27). Thus, we established that
significant levels of inattentiveness exist even among the most elite MTurk
workers. The study concludes by reaffirming the need for multiple forms of
carefully crafted attention checks, irrespective of whether participant quality
is presumed to be high according to MTurk criteria such as 'Master', 'Approval
Rate', and 'Number of HITS approved'. Furthermore, we propose that researchers
adjust their proposals to account for the effort and costs required to address
participant inattentiveness.
- Abstract(参考訳): 本研究では,アマゾン・メカニカル・ターク(mturk)に委託された参加者の注意力を調査し,プラットフォームトップの群集作業者(「マスター」に分類され,「承認率」が98%以上,「承認されたヒット数」が1000以上)間に有意な不注意性を見出した。
実験には合計564人の米国人が参加した。
彼らは4つの仮想技術製品のうちの1つを概説するvignetteを読んで、関連する調査を完了するよう求められた。
注意力評価には3種類の注意チェック(論理、正直、時間)が用いられた。
この実験により、合計126名 (22.3%) の参加者が少なくとも3種類の注意チェックのうちの1つに失敗し、ほとんどの (94) が正直なチェックに失敗し、続いて論理チェック (31) とタイムチェック (27) が行われた。
その結果,最もエリートなmturk労働者においても,かなりのレベルの不注意が存在していることがわかった。
本研究は,「マスター」,「承認率」,「HITSのNumber of HITS」などのMTurk基準に基づき,参加者の質が高いと推定されるか否かにかかわらず,複数種類の注意点検の必要性を再確認して結論付けた。
さらに,参加者の不注意に対処するのに必要な労力とコストを考慮し,研究者が提案を調整できることを提案する。
関連論文リスト
- The Automated Verification of Textual Claims (AVeriTeC) Shared Task [29.535143881116472]
共有されたタスクは、参加者に証拠を回収し、ファクトチェッカーによってチェックされた現実世界のクレームの正確性を予測するよう依頼した。
証拠は検索エンジン経由で、またはオーガナイザが提供する知識ストア経由で見つけることができる。
優勝チームはTUDA_MAIで、AVeriTeCスコアは63%だった。
論文 参考訳(メタデータ) (2024-10-31T12:01:12Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Analysis of the ICML 2023 Ranking Data: Can Authors' Opinions of Their Own Papers Assist Peer Review in Machine Learning? [52.00419656272129]
我々は2023年の国際機械学習会議(ICML)で実験を行った。
我々はそれぞれ2,592件の応募書を含む1,342件のランク付けを受けた。
著者によるランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - FactFinders at CheckThat! 2024: Refining Check-worthy Statement Detection with LLMs through Data Pruning [43.82613670331329]
本研究では,オープンソースの言語モデルを用いて,政治的書き起こしからチェックにふさわしい文章を識別する手法について検討する。
本稿では,高品質なトレーニングデータインスタンスを自動的に同定し,効果的な学習を行うための2段階のデータ解析手法を提案する。
私たちのチームは英語のチェック・マインドネス・タスクで1位にランクインした。
論文 参考訳(メタデータ) (2024-06-26T12:31:31Z) - Incorporating Worker Perspectives into MTurk Annotation Practices for
NLP [40.70358114333233]
Amazon Mechanical Turk(MTurk)における自然言語処理のデータ収集に関する現在の実践は、労働者の権利と応答品質の低さに関する問題の影響を受けやすい。
我々は、公正な支払い、労働者のプライバシ、データ品質、労働者インセンティブを考慮したオープンな質問に対処することを目的とした、批判的な文献レビューとMTurkワーカーの調査を行った。
労働者の嗜好はNLP研究者の間では知恵に反することが多い。
論文 参考訳(メタデータ) (2023-11-06T00:06:11Z) - MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised
Learning [90.17500229142755]
第1回マルチモーダル感情認識チャレンジ(MER 2023)は、ACMマルチメディアで成功した。
本稿では、この課題の背景にある動機を紹介し、ベンチマークデータセットを説明し、参加者に関する統計情報を提供する。
この高品質なデータセットは、特に中国の研究コミュニティにとって、マルチモーダルな感情認識の新しいベンチマークになり得ると考えています。
論文 参考訳(メタデータ) (2023-04-18T13:23:42Z) - GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。
サンプルREG試験では,テキストダビンシ003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力が著しく低下していることが判明した。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文 参考訳(メタデータ) (2023-01-11T11:30:42Z) - Biomedical image analysis competitions: The state of current
participation practice [143.52578599912326]
我々は,バイオメディカルイメージング分析の特定の分野におけるアルゴリズム開発の現状を明らかにするための調査を設計した。
この調査は、参加者の専門知識と作業環境、選択した戦略、およびアルゴリズムの特徴をカバーした。
全体として、すべてのソリューションの94%はディープラーニングベースのものだ。そのうち84%は標準アーキテクチャに基づいていた。
論文 参考訳(メタデータ) (2022-12-16T16:44:46Z) - WebFace260M: A Benchmark for Million-Scale Deep Face Recognition [89.39080252029386]
我々は、未修正4MのID/260Mの顔(WebFace260M)とクリーン2MのID/42Mの顔(WebFace42M)を含む新しい100万スケールの認識ベンチマークに貢献する。
分散フレームワークは、性能を損なうことなく、顔認識モデルを効率的に訓練するために開発された。
提案したベンチマークは、標準、マスク付き、偏見のない顔認識シナリオにおいて大きな可能性を示している。
論文 参考訳(メタデータ) (2022-04-21T14:56:53Z) - 3D High-Fidelity Mask Face Presentation Attack Detection Challenge [79.2407530090659]
大規模なHigh-Fidelity Maskデータセット、すなわちCASIA-SURF HiFiMaskが収集された。
我々は,3次元マスクによる攻撃検出の研究を促進するために,3次元高忠実マスク顔提示検出チャレンジを組織した。
論文 参考訳(メタデータ) (2021-08-16T08:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。