論文の概要: Whose Ground Truth? Accounting for Individual and Collective Identities
Underlying Dataset Annotation
- arxiv url: http://arxiv.org/abs/2112.04554v1
- Date: Wed, 8 Dec 2021 19:56:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-11 00:55:05.565394
- Title: Whose Ground Truth? Accounting for Individual and Collective Identities
Underlying Dataset Annotation
- Title(参考訳): 誰の真実?
データセットアノテーションに基づく個人および集団のアイデンティティの会計
- Authors: Emily Denton, Mark D\'iaz, Ian Kivlichan, Vinodkumar Prabhakaran,
Rachel Rosen
- Abstract要約: クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
私たちは、アノテーションが誰であるか、そしてアノテーションの生きた経験がアノテーションにどのように影響するかという2つのレイヤに沿って、この分野の課題をレイアウトしました。
MLデータパイプラインのさまざまな段階において、データセット開発者に対して、具体的なレコメンデーションと考慮事項を提示した。
- 参考スコア(独自算出の注目度): 7.480972965984986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human annotations play a crucial role in machine learning (ML) research and
development. However, the ethical considerations around the processes and
decisions that go into building ML datasets has not received nearly enough
attention. In this paper, we survey an array of literature that provides
insights into ethical considerations around crowdsourced dataset annotation. We
synthesize these insights, and lay out the challenges in this space along two
layers: (1) who the annotator is, and how the annotators' lived experiences can
impact their annotations, and (2) the relationship between the annotators and
the crowdsourcing platforms and what that relationship affords them. Finally,
we put forth a concrete set of recommendations and considerations for dataset
developers at various stages of the ML data pipeline: task formulation,
selection of annotators, platform and infrastructure choices, dataset analysis
and evaluation, and dataset documentation and release.
- Abstract(参考訳): ヒューマンアノテーションは機械学習(ML)の研究と開発において重要な役割を果たす。
しかし、MLデータセットの構築に関わるプロセスや決定に関する倫理的な考慮は、あまり注目を集めていない。
本稿では,クラウドソーシングされたデータセットアノテーションに関する倫理的考察に関する知見を提供する文献群を調査した。
我々はこれらの知見を合成し,(1)アノテータが誰なのか,(2)アノテータとクラウドソーシングプラットフォームとの関係と,その関係がそれらのアノテーションにどのような影響を与えるのか,という2つのレイヤに沿って,この分野の課題を概説する。
最後に、タスクの定式化、アノテータの選択、プラットフォームとインフラストラクチャの選択、データセットの分析と評価、データセットのドキュメントとリリースなど、MLデータパイプラインのさまざまな段階におけるデータセット開発者のための具体的な推奨事項と考慮事項を紹介した。
関連論文リスト
- Position: Measure Dataset Diversity, Don't Just Claim It [8.551188808401294]
データセットキュレーターは、データセットを特徴付けるために、多様性、バイアス、品質といった、価値に富んだ用語を頻繁に使用します。
それらの流行にもかかわらず、これらの用語には明確な定義と検証が欠けている。
本研究は,135の画像データセットとテキストデータセットにまたがる「多様性」を分析し,この問題の意義を考察する。
論文 参考訳(メタデータ) (2024-07-11T05:13:27Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文 参考訳(メタデータ) (2024-01-24T21:47:13Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - CrowdWorkSheets: Accounting for Individual and Collective Identities
Underlying Crowdsourced Dataset Annotation [8.447159556925182]
クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
1)アノテータが誰であるか、そして、アノテータの生きた経験がアノテーションにどのように影響するかである。
我々は、データセット開発者のための新しいフレームワークCrowdWorkSheetsを導入し、データアノテーションパイプラインのさまざまな段階における重要な決定ポイントの透過的なドキュメント化を容易にする。
論文 参考訳(メタデータ) (2022-06-09T23:31:17Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - An Ethical Highlighter for People-Centric Dataset Creation [62.886916477131486]
本稿では,既存のデータセットの倫理的評価を導くための分析フレームワークを提案する。
我々の研究は、先行研究のレビューと分析によって知らされ、そのような倫理的課題が生じる場所を強調します。
論文 参考訳(メタデータ) (2020-11-27T07:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。