論文の概要: Are fairness metric scores enough to assess discrimination biases in
machine learning?
- arxiv url: http://arxiv.org/abs/2306.05307v1
- Date: Thu, 8 Jun 2023 15:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:37:24.960685
- Title: Are fairness metric scores enough to assess discrimination biases in
machine learning?
- Title(参考訳): 機械学習における差別バイアスを評価するのに、公正度スコアは十分か?
- Authors: Fanny Jourdan, Laurent Risser, Jean-Michel Loubes, Nicholas Asher
- Abstract要約: 我々は,Biosデータセットに焦点をあて,学習課題は,その伝記に基づいて個人の職業を予測することである。
我々は、グループワイドフェアネスメトリクスを扱う理論的議論の重要な制限に対処する。
そして、トレーニングセットのサイズが、合理的に正確な予測を学習するのに十分な場合、どの程度の信頼性が一般的なバイアスの尺度に異なるのかを問う。
- 参考スコア(独自算出の注目度): 4.073786857780967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents novel experiments shedding light on the shortcomings of
current metrics for assessing biases of gender discrimination made by machine
learning algorithms on textual data. We focus on the Bios dataset, and our
learning task is to predict the occupation of individuals, based on their
biography. Such prediction tasks are common in commercial Natural Language
Processing (NLP) applications such as automatic job recommendations. We address
an important limitation of theoretical discussions dealing with group-wise
fairness metrics: they focus on large datasets, although the norm in many
industrial NLP applications is to use small to reasonably large linguistic
datasets for which the main practical constraint is to get a good prediction
accuracy. We then question how reliable are different popular measures of bias
when the size of the training set is simply sufficient to learn reasonably
accurate predictions. Our experiments sample the Bios dataset and learn more
than 200 models on different sample sizes. This allows us to statistically
study our results and to confirm that common gender bias indices provide
diverging and sometimes unreliable results when applied to relatively small
training and test samples. This highlights the crucial importance of variance
calculations for providing sound results in this field.
- Abstract(参考訳): 本稿では、テキストデータを用いた機械学習アルゴリズムによる性差別のバイアスを評価するための、現在の指標の欠点に関する新しい実験について述べる。
我々は,Biosデータセットに焦点をあて,学習課題は,その伝記に基づいて個人の職業を予測することである。
このような予測タスクは、自動ジョブレコメンデーションのような商用自然言語処理(NLP)アプリケーションで一般的である。
大規模なデータセットに焦点をあてるが、多くの産業用NLPアプリケーションでは、小さくて合理的に大規模な言語データセットを使用することが一般的であり、そこでは、主要な実用的な制約は予測精度を向上させることである。
そして、トレーニングセットのサイズが合理的に正確な予測を学ぶのに十分である場合、一般的なバイアス尺度がどの程度信頼性があるか疑問に思う。
実験では、Biosデータセットをサンプリングし、異なるサンプルサイズで200以上のモデルを学ぶ。
これにより、統計的に調査し、一般的な性別バイアス指標が比較的小さなトレーニングやテストサンプルに適用した場合、ばらつきや信頼できない結果をもたらすことを確認できます。
このことは、この分野での音響結果を提供するための分散計算の重要性を強調している。
関連論文リスト
- Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。
本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。
その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition [4.336779198334903]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - Deep Learning on a Healthy Data Diet: Finding Important Examples for
Fairness [15.210232622716129]
データ駆動予測ソリューションは、主に商用アプリケーションで使われているが、バイアスやステレオタイプに悩まされる傾向がある。
データ拡張は、トレーニングデータセットに反実例を追加することで、性別バイアスを低減する。
拡張データセットのいくつかの例は、公平性には重要でも有害でもないことを示します。
論文 参考訳(メタデータ) (2022-11-20T22:42:30Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Statistical discrimination in learning agents [64.78141757063142]
統計的差別は、訓練人口のバイアスとエージェントアーキテクチャの両方の関数としてエージェントポリシーに現れる。
我々は、リカレントニューラルネットワークを使用するエージェントによる差別の低減と、トレーニング環境のバイアスの低減が示される。
論文 参考訳(メタデータ) (2021-10-21T18:28:57Z) - Impact of Gender Debiased Word Embeddings in Language Modeling [0.0]
性別、人種、社会的バイアスは、自然言語処理の適用における不公平の明白な例として検出されている。
近年の研究では、トレーニングで使用される人為的なデータが偏見を生じさせる要因であることが示されている。
現在のアルゴリズムは、データからのバイアスを増幅することも証明されている。
論文 参考訳(メタデータ) (2021-05-03T14:45:10Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z) - A survey of bias in Machine Learning through the prism of Statistical
Parity for the Adult Data Set [5.277804553312449]
偏見を自動決定にどのように導入できるかを理解することの重要性を示す。
まず、公正学習問題、特に二項分類設定における数学的枠組みについて述べる。
そこで,本研究では,現実およびよく知られた成人所得データセットの標準差分効果指標を用いて,偏見の有無を定量化することを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。