論文の概要: Algorithmic Fairness Datasets: the Story so Far
- arxiv url: http://arxiv.org/abs/2202.01711v4
- Date: Mon, 26 Sep 2022 16:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 14:41:35.311662
- Title: Algorithmic Fairness Datasets: the Story so Far
- Title(参考訳): algorithmic fairness datasets: これまでの話
- Authors: Alessandro Fabris, Stefano Messina, Gianmaria Silvello, Gian Antonio
Susto
- Abstract要約: データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
- 参考スコア(独自算出の注目度): 68.45921483094705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-driven algorithms are studied in diverse domains to support critical
decisions, directly impacting people's well-being. As a result, a growing
community of researchers has been investigating the equity of existing
algorithms and proposing novel ones, advancing the understanding of risks and
opportunities of automated decision-making for historically disadvantaged
populations. Progress in fair Machine Learning hinges on data, which can be
appropriately used only if adequately documented. Unfortunately, the
algorithmic fairness community suffers from a collective data documentation
debt caused by a lack of information on specific resources (opacity) and
scatteredness of available information (sparsity). In this work, we target data
documentation debt by surveying over two hundred datasets employed in
algorithmic fairness research, and producing standardized and searchable
documentation for each of them. Moreover we rigorously identify the three most
popular fairness datasets, namely Adult, COMPAS and German Credit, for which we
compile in-depth documentation.
This unifying documentation effort supports multiple contributions. Firstly,
we summarize the merits and limitations of Adult, COMPAS and German Credit,
adding to and unifying recent scholarship, calling into question their
suitability as general-purpose fairness benchmarks. Secondly, we document and
summarize hundreds of available alternatives, annotating their domain and
supported fairness tasks, along with additional properties of interest for
fairness researchers. Finally, we analyze these datasets from the perspective
of five important data curation topics: anonymization, consent, inclusivity,
sensitive attributes, and transparency. We discuss different approaches and
levels of attention to these topics, making them tangible, and distill them
into a set of best practices for the curation of novel resources.
- Abstract(参考訳): データ駆動アルゴリズムは様々な領域で研究され、人々の幸福に直接影響を与える。
その結果、研究者のコミュニティが既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対するリスクと自動意思決定の機会の理解を進めてきた。
公正な機械学習の進歩は、適切にドキュメント化された場合にのみ適切に使用できるデータに基づく。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)に起因する、集合的なデータドキュメント負債に悩まされている。
本研究では,アルゴリズム的公平性研究に採用されている200以上のデータセットを調査し,それぞれを標準化し,検索可能なドキュメントを作成することで,データドキュメントの負債を解消する。
さらに、最も人気のある3つのフェアネスデータセット(大人、コンパス、ドイツのクレジット)を厳密に識別し、詳細なドキュメントをコンパイルします。
この統合ドキュメントの取り組みは、複数のコントリビューションをサポートする。
まず、アダルト、CompAS、ドイツ信用のメリットと限界を要約し、最近の奨学金の追加と統一を行い、汎用フェアネスベンチマークとしての適合性を疑問視する。
第二に、利用可能な何百もの代替案を文書化、要約し、それらのドメインに注釈を付け、フェアネスタスクをサポートし、そして、フェアネス研究者の興味を引いた。
最後に,これらのデータセットを,匿名化,同意,包括性,機密性,機密性,透明性という5つの重要なデータキュレーショントピックの観点から分析する。
我々は,これらのトピックに対する様々なアプローチと注意のレベルについて議論し,それらを具体化し,新しいリソースのキュレーションのためのベストプラクティスのセットに蒸留する。
関連論文リスト
- Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment [76.04306818209753]
実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-10T16:00:41Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Demographic-Reliant Algorithmic Fairness: Characterizing the Risks of
Demographic Data Collection in the Pursuit of Fairness [0.0]
我々は、アルゴリズムの公正性を実現するために、人口統計に関するより多くのデータを集めることを検討する。
これらの技術は、データガバナンスとシステム抑圧に関するより広範な疑問を、いかに無視するかを示す。
論文 参考訳(メタデータ) (2022-04-18T04:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。