論文の概要: CrowdWorkSheets: Accounting for Individual and Collective Identities
Underlying Crowdsourced Dataset Annotation
- arxiv url: http://arxiv.org/abs/2206.08931v1
- Date: Thu, 9 Jun 2022 23:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 01:03:43.802072
- Title: CrowdWorkSheets: Accounting for Individual and Collective Identities
Underlying Crowdsourced Dataset Annotation
- Title(参考訳): CrowdWorkSheets: クラウドソーシングされたデータセットアノテーションに基づく個人および集合IDの会計
- Authors: Mark Diaz, Ian D. Kivlichan, Rachel Rosen, Dylan K. Baker, Razvan
Amironesei, Vinodkumar Prabhakaran, Emily Denton
- Abstract要約: クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
1)アノテータが誰であるか、そして、アノテータの生きた経験がアノテーションにどのように影響するかである。
我々は、データセット開発者のための新しいフレームワークCrowdWorkSheetsを導入し、データアノテーションパイプラインのさまざまな段階における重要な決定ポイントの透過的なドキュメント化を容易にする。
- 参考スコア(独自算出の注目度): 8.447159556925182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human annotated data plays a crucial role in machine learning (ML) research
and development. However, the ethical considerations around the processes and
decisions that go into dataset annotation have not received nearly enough
attention. In this paper, we survey an array of literature that provides
insights into ethical considerations around crowdsourced dataset annotation. We
synthesize these insights, and lay out the challenges in this space along two
layers: (1) who the annotator is, and how the annotators' lived experiences can
impact their annotations, and (2) the relationship between the annotators and
the crowdsourcing platforms, and what that relationship affords them. Finally,
we introduce a novel framework, CrowdWorkSheets, for dataset developers to
facilitate transparent documentation of key decisions points at various stages
of the data annotation pipeline: task formulation, selection of annotators,
platform and infrastructure choices, dataset analysis and evaluation, and
dataset release and maintenance.
- Abstract(参考訳): 人間の注釈付きデータは、機械学習(ML)の研究と開発において重要な役割を果たす。
しかし、データセットのアノテーションに入るプロセスや決定に関する倫理的考察はほとんど注目されていない。
本稿では,クラウドソーシングされたデータセットアノテーションに関する倫理的考察に関する知見を提供する文献群を調査した。
これらの知見を合成し,(1)アノテータが誰であるか,(2)アノテータとクラウドソーシングプラットフォームとの関係,そしてその関係がそれらのアノテーションにどのような影響を与えるか,という2つのレイヤに沿って,この分野の課題を整理する。
最後に,データアノテーションパイプラインのさまざまな段階において,重要な決定点の透過的なドキュメント化を容易にするための,新たなフレームワークであるcrowdworksheetsを導入する。タスクの定式化,注釈の選択,プラットフォームとインフラストラクチャの選択,データセットの分析と評価,データセットのリリースとメンテナンスなどだ。
関連論文リスト
- BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文 参考訳(メタデータ) (2024-01-24T21:47:13Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Whose Ground Truth? Accounting for Individual and Collective Identities
Underlying Dataset Annotation [7.480972965984986]
クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
私たちは、アノテーションが誰であるか、そしてアノテーションの生きた経験がアノテーションにどのように影響するかという2つのレイヤに沿って、この分野の課題をレイアウトしました。
MLデータパイプラインのさまざまな段階において、データセット開発者に対して、具体的なレコメンデーションと考慮事項を提示した。
論文 参考訳(メタデータ) (2021-12-08T19:56:56Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。