論文の概要: Studying Up Machine Learning Data: Why Talk About Bias When We Mean
Power?
- arxiv url: http://arxiv.org/abs/2109.08131v1
- Date: Thu, 16 Sep 2021 17:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 16:24:20.897242
- Title: Studying Up Machine Learning Data: Why Talk About Bias When We Mean
Power?
- Title(参考訳): 機械学習データの研究:なぜパワーを意味するバイアスについて語るのか?
- Authors: Milagros Miceli, Julian Posada, Tianling Yang
- Abstract要約: 我々は、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じている。
MLデータセットを形作るデータワーカーの労働にかかわる企業力と市場衝動に注目します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Research in machine learning (ML) has primarily argued that models trained on
incomplete or biased datasets can lead to discriminatory outputs. In this
commentary, we propose moving the research focus beyond bias-oriented framings
by adopting a power-aware perspective to "study up" ML datasets. This means
accounting for historical inequities, labor conditions, and epistemological
standpoints inscribed in data. We draw on HCI and CSCW work to support our
argument, critically analyze previous research, and point at two co-existing
lines of work within our community -- one bias-oriented, the other power-aware.
This way, we highlight the need for dialogue and cooperation in three areas:
data quality, data work, and data documentation. In the first area, we argue
that reducing societal problems to "bias" misses the context-based nature of
data. In the second one, we highlight the corporate forces and market
imperatives involved in the labor of data workers that subsequently shape ML
datasets. Finally, we propose expanding current transparency-oriented efforts
in dataset documentation to reflect the social contexts of data design and
production.
- Abstract(参考訳): 機械学習の研究(ML)は、不完全または偏りのあるデータセットで訓練されたモデルが差別的な出力につながると主に主張している。
このコメンタリーでは、パワーアウェアの観点から機械学習データセットを"研究"し、バイアス指向のフレーミングを超えて研究の焦点を移すことを提案する。
これは、データに記載された歴史的不平等、労働条件、認識論的観点の会計を意味する。
HCIとCSCWの作業は、私たちの議論を支持し、以前の調査を批判的に分析し、コミュニティ内の2つの既存の作業ラインを指し示します。
このように、データ品質、データワーク、データドキュメントという3つの分野における対話と協調の必要性を強調します。
最初の領域では、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じる。
第2の記事では、次にmlデータセットを形成するデータワーカーの労働にかかわる企業力と市場命令を強調します。
最後に、データ設計と生産の社会的文脈を反映したデータセットドキュメントにおける、現在の透明性指向の取り組みの拡大を提案する。
関連論文リスト
- Data-Augmented and Retrieval-Augmented Context Enrichment in Chinese
Media Bias Detection [16.343223974292908]
我々は、新たに設計されたシステムによって注釈付けされた新型コロナウイルスに関する中国のニュースと共にデータセットを構築します。
データ拡張コンテキストエンリッチメント(DACE)では、トレーニングデータを拡大し、Retrieval-Augmentedコンテキストエンリッチメント(RACE)では、貴重な情報を選択するための情報検索方法を改善する。
以上の結果から, RACE法の方が効率が高く, 可能性も高いことがわかった。
論文 参考訳(メタデータ) (2023-11-02T16:29:49Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。