論文の概要: Studying Up Machine Learning Data: Why Talk About Bias When We Mean
Power?
- arxiv url: http://arxiv.org/abs/2109.08131v1
- Date: Thu, 16 Sep 2021 17:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 16:24:20.897242
- Title: Studying Up Machine Learning Data: Why Talk About Bias When We Mean
Power?
- Title(参考訳): 機械学習データの研究:なぜパワーを意味するバイアスについて語るのか?
- Authors: Milagros Miceli, Julian Posada, Tianling Yang
- Abstract要約: 我々は、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じている。
MLデータセットを形作るデータワーカーの労働にかかわる企業力と市場衝動に注目します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Research in machine learning (ML) has primarily argued that models trained on
incomplete or biased datasets can lead to discriminatory outputs. In this
commentary, we propose moving the research focus beyond bias-oriented framings
by adopting a power-aware perspective to "study up" ML datasets. This means
accounting for historical inequities, labor conditions, and epistemological
standpoints inscribed in data. We draw on HCI and CSCW work to support our
argument, critically analyze previous research, and point at two co-existing
lines of work within our community -- one bias-oriented, the other power-aware.
This way, we highlight the need for dialogue and cooperation in three areas:
data quality, data work, and data documentation. In the first area, we argue
that reducing societal problems to "bias" misses the context-based nature of
data. In the second one, we highlight the corporate forces and market
imperatives involved in the labor of data workers that subsequently shape ML
datasets. Finally, we propose expanding current transparency-oriented efforts
in dataset documentation to reflect the social contexts of data design and
production.
- Abstract(参考訳): 機械学習の研究(ML)は、不完全または偏りのあるデータセットで訓練されたモデルが差別的な出力につながると主に主張している。
このコメンタリーでは、パワーアウェアの観点から機械学習データセットを"研究"し、バイアス指向のフレーミングを超えて研究の焦点を移すことを提案する。
これは、データに記載された歴史的不平等、労働条件、認識論的観点の会計を意味する。
HCIとCSCWの作業は、私たちの議論を支持し、以前の調査を批判的に分析し、コミュニティ内の2つの既存の作業ラインを指し示します。
このように、データ品質、データワーク、データドキュメントという3つの分野における対話と協調の必要性を強調します。
最初の領域では、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じる。
第2の記事では、次にmlデータセットを形成するデータワーカーの労働にかかわる企業力と市場命令を強調します。
最後に、データ設計と生産の社会的文脈を反映したデータセットドキュメントにおける、現在の透明性指向の取り組みの拡大を提案する。
関連論文リスト
- Fairness and Bias Mitigation in Computer Vision: A Survey [61.01658257223365]
コンピュータビジョンシステムは、高精細な現実世界のアプリケーションにますますデプロイされている。
歴史的または人為的なデータにおいて差別的な傾向を伝播または増幅しないことを確実にする必要がある。
本稿では,コンピュータビジョンの文脈における現在進行中の傾向と成功をまとめた,公平性に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2024-08-05T13:44:22Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Understanding the Dataset Practitioners Behind Large Language Model Development [5.48392160519422]
私たちは、Googleというテクノロジー企業における“データセットの実践者”の役割を定義します。
我々は,これらの実践者の横断的なインタビューを行う。
データ品質が最優先事項であるにも関わらず、データ品質とそれを評価する方法に関するコンセンサスはほとんどありません。
論文 参考訳(メタデータ) (2024-02-21T23:50:37Z) - Data-Augmented and Retrieval-Augmented Context Enrichment in Chinese
Media Bias Detection [16.343223974292908]
我々は、新たに設計されたシステムによって注釈付けされた新型コロナウイルスに関する中国のニュースと共にデータセットを構築します。
データ拡張コンテキストエンリッチメント(DACE)では、トレーニングデータを拡大し、Retrieval-Augmentedコンテキストエンリッチメント(RACE)では、貴重な情報を選択するための情報検索方法を改善する。
以上の結果から, RACE法の方が効率が高く, 可能性も高いことがわかった。
論文 参考訳(メタデータ) (2023-11-02T16:29:49Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。