論文の概要: Incorporating Worker Perspectives into MTurk Annotation Practices for
NLP
- arxiv url: http://arxiv.org/abs/2311.02802v2
- Date: Thu, 16 Nov 2023 01:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:33:33.084469
- Title: Incorporating Worker Perspectives into MTurk Annotation Practices for
NLP
- Title(参考訳): nlpのmturkアノテーションプラクティスへのワーカーパースペクティブの導入
- Authors: Olivia Huang, Eve Fleisig, Dan Klein
- Abstract要約: Amazon Mechanical Turk(MTurk)における自然言語処理のデータ収集に関する現在の実践は、労働者の権利と応答品質の低さに関する問題の影響を受けやすい。
我々は、公正な支払い、労働者のプライバシ、データ品質、労働者インセンティブを考慮したオープンな質問に対処することを目的とした、批判的な文献レビューとMTurkワーカーの調査を行った。
労働者の嗜好はNLP研究者の間では知恵に反することが多い。
- 参考スコア(独自算出の注目度): 40.70358114333233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current practices regarding data collection for natural language processing
on Amazon Mechanical Turk (MTurk) often rely on a combination of studies on
data quality and heuristics shared among NLP researchers. However, without
considering the perspectives of MTurk workers, these approaches are susceptible
to issues regarding workers' rights and poor response quality. We conducted a
critical literature review and a survey of MTurk workers aimed at addressing
open questions regarding best practices for fair payment, worker privacy, data
quality, and considering worker incentives. We found that worker preferences
are often at odds with received wisdom among NLP researchers. Surveyed workers
preferred reliable, reasonable payments over uncertain, very high payments;
reported frequently lying on demographic questions; and expressed frustration
at having work rejected with no explanation. We also found that workers view
some quality control methods, such as requiring minimum response times or
Master's qualifications, as biased and largely ineffective. Based on the survey
results, we provide recommendations on how future NLP studies may better
account for MTurk workers' experiences in order to respect workers' rights and
improve data quality.
- Abstract(参考訳): Amazon Mechanical Turk(MTurk)における自然言語処理のデータ収集に関する現在のプラクティスは、NLP研究者間で共有されるデータ品質とヒューリスティックスの研究の組み合わせに依存していることが多い。
しかしながら、mturkの労働者の視点を考慮せずに、これらのアプローチは労働者の権利や応答の質の悪い問題に影響を受けやすい。
我々は、公正な支払い、労働者のプライバシ、データ品質、労働者のインセンティブを考慮したオープンな質問に対する批判的な文献レビューとMTurkワーカーの調査を行った。
労働者の嗜好はNLP研究者の間では知恵に反することが多い。
調査対象となった労働者は、不確かな、非常に高い支払いに対して信頼できる、合理的な支払いを好んだ。
また、労働者は、最低応答時間やマスターの資格など、いくつかの品質管理手法をバイアスがあり、ほとんど効果がないと見なしている。
調査の結果から,今後のNLP研究は,労働者の権利を尊重し,データ品質を向上させるために,MTurk労働者の経験をいかに考慮した方がよいかを推奨する。
関連論文リスト
- What Can Natural Language Processing Do for Peer Review? [173.8912784451817]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。
ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。
筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文 参考訳(メタデータ) (2024-05-10T16:06:43Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Leveraging Human Feedback to Scale Educational Datasets: Combining
Crowdworkers and Comparative Judgement [0.0]
本稿では,非専門的なクラウドワーカーを用いた2つの実験と,学生データ評価のための比較判断について報告する。
比較判定を用いることで,両タスク間の信頼性が大幅に向上することが判明した。
論文 参考訳(メタデータ) (2023-05-22T10:22:14Z) - Lessons Learned from a Citizen Science Project for Natural Language
Processing [53.48988266271858]
市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。
我々は、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加について探索的研究を行う。
この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることが示唆された。
論文 参考訳(メタデータ) (2023-04-25T14:08:53Z) - Needle in a Haystack: An Analysis of High-Agreement Workers on MTurk for
Summarization [29.2233772700673]
高品質なアマゾン・メカニカル・トルコ人労働者を2段階のパイプラインで採用する方法について検討する。
評価を行う前に、サブパー労働者のフィルタリングに成功できることが示される。
当社の作業員は、彼らとCloudResearchの作業員の間で強いコンセンサスを示していますが、データのサブセットに関する専門家の判断との整合性は期待通りではありません。
論文 参考訳(メタデータ) (2022-12-20T16:25:42Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - A Survey of NLP-Related Crowdsourcing HITs: what works and what does not [0.618778092044887]
Amazon Mechanical Turk (AMT)のクラウドソーシング要求者は、労働者の信頼性について疑問を投げかけている。
一部のリクエスタは、期待した結果が得られない場合、大量の作業を拒否します。
これは、各労働者(善か悪か)に低いヒューマン・インテリジェンス・タスク(HIT)の承認スコアを与える効果がある。
論文 参考訳(メタデータ) (2021-11-09T16:26:51Z) - The Perils of Using Mechanical Turk to Evaluate Open-Ended Text
Generation [21.474147342650028]
Amazon Mechanical Turk (AMT)の労働者は、モデル生成テキストと人間生成参照を区別できない。
AMT作業員の判断は、人為的参照とともにモデル生成出力を示すときに改善されることを示す。
論文 参考訳(メタデータ) (2021-09-14T17:20:30Z) - Quantifying and Avoiding Unfair Qualification Labour in Crowdsourcing [15.58746887995363]
高品質なアノテーションの収集に関する研究は、労働者が以前特定のタスクを完了させたことを要求する資格を利用することを示唆している。
我々は、労働者が低賃金のタスクに約2.25ヶ月をフルタイムで費やしていると見積もっている。
高品質なデータを収集しながら作業者の負担を軽減することが可能であることが判明した。
論文 参考訳(メタデータ) (2021-05-26T18:02:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。