論文の概要: Resolving the Human Subjects Status of Machine Learning's Crowdworkers
- arxiv url: http://arxiv.org/abs/2206.04039v2
- Date: Thu, 15 Jun 2023 20:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 18:34:12.215346
- Title: Resolving the Human Subjects Status of Machine Learning's Crowdworkers
- Title(参考訳): 機械学習における群集作業者の被写体状態の解明
- Authors: Divyansh Kaushik, Zachary C. Lipton, Alex John London
- Abstract要約: MLクラウドソーシング研究の適切な指定について検討する。
私たちは、MLがもたらす2つの課題を強調します。同じ労働者のセットが複数の役割を担い、さまざまな情報を提供することができます。
我々の分析は、研究者がデータ収集と分析を別々の研究に分割することで、研究倫理の監督を免れるという共通規則の潜在的な抜け穴を露呈する。
- 参考スコア(独自算出の注目度): 29.008050084395958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, machine learning (ML) has relied heavily on crowdworkers
both for building datasets and for addressing research questions requiring
human interaction or judgment. The diverse tasks performed and uses of the data
produced render it difficult to determine when crowdworkers are best thought of
as workers (versus human subjects). These difficulties are compounded by
conflicting policies, with some institutions and researchers regarding all ML
crowdworkers as human subjects and others holding that they rarely constitute
human subjects. Notably few ML papers involving crowdwork mention IRB
oversight, raising the prospect of non-compliance with ethical and regulatory
requirements. We investigate the appropriate designation of ML crowdsourcing
studies, focusing our inquiry on natural language processing to expose unique
challenges for research oversight. Crucially, under the U.S. Common Rule, these
judgments hinge on determinations of aboutness, concerning both whom (or what)
the collected data is about and whom (or what) the analysis is about. We
highlight two challenges posed by ML: the same set of workers can serve
multiple roles and provide many sorts of information; and ML research tends to
embrace a dynamic workflow, where research questions are seldom stated ex ante
and data sharing opens the door for future studies to aim questions at
different targets. Our analysis exposes a potential loophole in the Common
Rule, where researchers can elude research ethics oversight by splitting data
collection and analysis into distinct studies. Finally, we offer several policy
recommendations to address these concerns.
- Abstract(参考訳): 近年、機械学習(ML)は、データセットの構築と人間のインタラクションや判断を必要とする研究課題への対処の両方に、クラウドワーカーに大きく依存している。
様々なタスクが実行され、生成されたデータの使用は、群衆労働者が労働者(対人被験者)として最もよく考えられているかを決定するのを難しくする。
これらの困難は相反する政策によって複雑化しており、一部の機関や研究者はmlの全ての群衆労働者を人間として扱っている。
クラウドワークを含むML論文は特に少なく、IRBの監視に言及し、倫理的および規制的な要件に準拠する可能性を高めている。
本研究では,機械学習のクラウドソーシング研究の適切な指定について検討し,自然言語処理の課題を明らかにすることに焦点を当てた。
重要なことに、米国共通規則の下では、これらの判断は、収集されたデータが誰であるか(または何)、その分析が誰であるか(または何)について、無関心の判断にヒンジする。
我々は、mlが提起する2つの課題を強調する: 同じワーカセットが複数の役割を果たすことができ、多くの種類の情報を提供することができる。
我々の分析は、研究者がデータ収集と分析を別々の研究に分割することで、研究倫理の監督を免れるという共通規則の潜在的な抜け穴を露呈する。
最後に、これらの懸念に対処するためのポリシーレコメンデーションをいくつか提供します。
関連論文リスト
- What Evidence Do Language Models Find Convincing? [103.67867531892988]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Factuality of Large Language Models in the Year 2024 [31.039783688574897]
我々は、主要な課題とその原因を特定することを目的として、既存の研究を批判的に分析する。
オープンエンドテキスト生成における事実自動評価の障害を解析する。
論文 参考訳(メタデータ) (2024-02-04T09:36:31Z) - Responsible AI Considerations in Text Summarization Research: A Review
of Current Practices [89.85174013619883]
私たちは、責任あるAIコミュニティがほとんど見落としている共通のNLPタスクである、テキスト要約に重点を置いています。
我々は,2020-2022年に出版されたACLアンソロジーから333の要約論文の多段階的質的分析を行った。
私たちは、どの、どの、どの責任あるAI問題がカバーされているか、どの関係するステークホルダーが考慮されているか、そして、述べられた研究目標と実現された研究目標のミスマッチに焦点を合わせます。
論文 参考訳(メタデータ) (2023-11-18T15:35:36Z) - Can AI Serve as a Substitute for Human Subjects in Software Engineering
Research? [24.39463126056733]
本稿では,人工知能(AI)の能力を活用したソフトウェア工学研究における定性データ収集手法を提案する。
定性的データの代替源としてAI生成合成テキストの可能性を探る。
観察研究とユーザ評価における人間の行動のエミュレートを目的とした新しい基礎モデルの開発について論じる。
論文 参考訳(メタデータ) (2023-11-18T14:05:52Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - The ethical ambiguity of AI data enrichment: Measuring gaps in research
ethics norms and practices [2.28438857884398]
この研究は、AI研究とデータ豊か化のために、同等な研究倫理要件と規範がどのように開発されたか、そしてどの程度まで調査する。
主要なAI会場は、人間のデータ収集のためのプロトコルを確立し始めているが、これらは矛盾なく著者が追従している。
論文 参考訳(メタデータ) (2023-06-01T16:12:55Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Studying Up Machine Learning Data: Why Talk About Bias When We Mean
Power? [0.0]
我々は、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じている。
MLデータセットを形作るデータワーカーの労働にかかわる企業力と市場衝動に注目します。
論文 参考訳(メタデータ) (2021-09-16T17:38:26Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z) - The COVID-19 Infodemic: Can the Crowd Judge Recent Misinformation
Objectively? [17.288917654501265]
本研究では,クラウドソーシングがパンデミック時の言明の真偽を評価する上で,効果的かつ信頼性の高い方法であるかどうかを検討する。
研究の時点でまだ進行中の、新型コロナウイルスの緊急事態に関する声明を特に対象としています。
実験では,供述の真正性を評価するとともに,URLやテキストの正当性としての評価の証拠を提供するように依頼した。
論文 参考訳(メタデータ) (2020-08-13T05:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。