論文の概要: Who Decides if AI is Fair? The Labels Problem in Algorithmic Auditing
- arxiv url: http://arxiv.org/abs/2111.08723v1
- Date: Tue, 16 Nov 2021 19:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 02:45:24.218761
- Title: Who Decides if AI is Fair? The Labels Problem in Algorithmic Auditing
- Title(参考訳): AIがフェアなら誰が決める?
アルゴリズム監査におけるラベル問題
- Authors: Abhilash Mishra and Yash Gorana
- Abstract要約: 都市部と農村部におけるASRの性能は, 基礎的真理データの忠実度によって急激な差異が生じる可能性が示唆された。
この結果から,ラベルの品質とデータアノテーションのコストのトレードオフが,実際にアルゴリズムによる監査を複雑化する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Labelled "ground truth" datasets are routinely used to evaluate and audit AI
algorithms applied in high-stakes settings. However, there do not exist widely
accepted benchmarks for the quality of labels in these datasets. We provide
empirical evidence that quality of labels can significantly distort the results
of algorithmic audits in real-world settings. Using data annotators typically
hired by AI firms in India, we show that fidelity of the ground truth data can
lead to spurious differences in performance of ASRs between urban and rural
populations. After a rigorous, albeit expensive, label cleaning process, these
disparities between groups disappear. Our findings highlight how trade-offs
between label quality and data annotation costs can complicate algorithmic
audits in practice. They also emphasize the need for development of
consensus-driven, widely accepted benchmarks for label quality.
- Abstract(参考訳): ラベル付き"ground truth"データセットは、高スループット設定で適用されるaiアルゴリズムの評価と監査に日常的に使用される。
しかし、これらのデータセットにラベルの品質に関する広く受け入れられているベンチマークは存在しない。
実世界において,ラベルの品質がアルゴリズム監査の結果を著しく歪めることの実証的証拠を提供する。
インドのAI企業が採用するデータアノテータを用いて、地上の真実データの忠実さは、都市部と農村部におけるASRのパフォーマンスに急激な違いをもたらす可能性があることを示す。
厳格で高価なラベルのクリーニングプロセスの後、グループ間の格差は消えます。
この結果から,ラベルの品質とデータアノテーションのコストのトレードオフが,実際にアルゴリズムによる監査を複雑化することを示す。
また、ラベル品質に対するコンセンサス駆動で広く受け入れられるベンチマークの開発の必要性も強調している。
関連論文リスト
- How Does Unlabeled Data Provably Help Out-of-Distribution Detection? [63.41681272937562]
in-distribution (ID) とout-of-distribution (OOD) の両データの不均一性のため、未ラベルの in-the-wild データは非自明である。
本稿では,理論的保証と実証的有効性の両方を提供する新たな学習フレームワークであるSAL(Separate And Learn)を紹介する。
論文 参考訳(メタデータ) (2024-02-05T20:36:33Z) - Certification Labels for Trustworthy AI: Insights From an Empirical
Mixed-Method Study [0.0]
本研究は,有望なソリューションとしての認定ラベルを実証的に検討した。
ラベルがエンドユーザの信頼とAI使用意欲を大幅に向上させることができることを実証する。
しかし、認証ラベルに対するエンドユーザの好みと、AIの使用に対する信頼と意欲に対する影響は、高い評価のシナリオではより顕著であった。
論文 参考訳(メタデータ) (2023-05-15T09:51:10Z) - Fairness and Bias in Truth Discovery Algorithms: An Experimental
Analysis [7.575734557466221]
群衆労働者は信頼できないラベルを提供することもある。
真理探索(TD)アルゴリズムを用いて、競合するワーカー応答からコンセンサスラベルを決定する。
我々はTDアルゴリズムのバイアスと公平性を体系的に研究する。
論文 参考訳(メタデータ) (2023-04-25T04:56:35Z) - Beyond Hard Labels: Investigating data label distributions [0.9668407688201357]
学習の相違を、合成データセットと実世界のデータセットのハードラベルとソフトラベルと比較する。
ソフトラベルの適用により性能が向上し、内部特徴空間のより規則的な構造が得られる。
論文 参考訳(メタデータ) (2022-07-13T14:25:30Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Confident in the Crowd: Bayesian Inference to Improve Data Labelling in
Crowdsourcing [0.30458514384586394]
我々は,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。
本稿では,ベイズ推定などのより洗練された手法を用いてラベルラの性能を計測する。
提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。
論文 参考訳(メタデータ) (2021-05-28T17:09:45Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Analysis of label noise in graph-based semi-supervised learning [2.4366811507669124]
機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
多くの場合、私たちのデータのほとんどはラベル付けされていない。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
論文 参考訳(メタデータ) (2020-09-27T22:13:20Z) - Improving Face Recognition by Clustering Unlabeled Faces in the Wild [77.48677160252198]
極値理論に基づく新しいアイデンティティ分離法を提案する。
重なり合うラベルノイズによる問題を大幅に低減する。
制御された設定と実際の設定の両方の実験は、我々のメソッドの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2020-07-14T12:26:50Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Data Augmentation Imbalance For Imbalanced Attribute Classification [60.71438625139922]
本稿では,データ拡張不均衡(DAI)と呼ばれる新しい再サンプリングアルゴリズムを提案する。
我々のDAIアルゴリズムは歩行者属性のデータセットに基づいて最先端の結果を得る。
論文 参考訳(メタデータ) (2020-04-19T20:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。