論文の概要: DispaRisk: Auditing Fairness Through Usable Information
- arxiv url: http://arxiv.org/abs/2405.12372v2
- Date: Tue, 10 Sep 2024 14:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 23:03:57.269359
- Title: DispaRisk: Auditing Fairness Through Usable Information
- Title(参考訳): DispaRisk: 利用可能な情報による公正さの監査
- Authors: Jonathan Vasquez, Carlotta Domeniconi, Huzefa Rangwala,
- Abstract要約: DispaRiskは、マシンラーニングパイプラインの初期段階におけるデータセットの格差の潜在的なリスクを評価するために設計されたフレームワークである。
DispaRiskは、差別のリスクの高いデータセットを特定し、MLパイプライン内のバイアスが発生しやすいモデルファミリーを検出し、これらのバイアスリスクの説明可能性を高める。
この研究は、早期バイアス検出と緩和のための堅牢なツールを提供することにより、より公平なMLシステムの開発に寄与する。
- 参考スコア(独自算出の注目度): 21.521208250966918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning algorithms (ML) impact virtually every aspect of human lives and have found use across diverse sectors including healthcare, finance, and education. Often, ML algorithms have been found to exacerbate societal biases present in datasets leading to adversarial impacts on subsets/groups of individuals and in many cases on minority groups. To effectively mitigate these untoward effects, it is crucial that disparities/biases are identified early in a ML pipeline. This proactive approach facilitates timely interventions to prevent bias amplification and reduce complexity at later stages of model development. In this paper, we leverage recent advancements in usable information theory to introduce DispaRisk, a novel framework designed to proactively assess the potential risks of disparities in datasets during the initial stages of the ML pipeline. We evaluate DispaRisk's effectiveness by benchmarking it against commonly used datasets in fairness research. Our findings demonstrate DispaRisk's capabilities to identify datasets with a high risk of discrimination, detect model families prone to biases within an ML pipeline, and enhance the explainability of these bias risks. This work contributes to the development of fairer ML systems by providing a robust tool for early bias detection and mitigation. The code for our experiments is available in the following repository: https://github.com/jovasque156/disparisk
- Abstract(参考訳): 機械学習アルゴリズム(ML)は、人間の生活のあらゆる側面に影響を与え、医療、金融、教育など様々な分野で利用されてきた。
多くの場合、MLアルゴリズムはデータセットに存在する社会的バイアスを悪化させ、個人のサブセットやグループ、多くの場合はマイノリティグループに敵対的な影響をもたらす。
これらの不適切な効果を効果的に軽減するためには、MLパイプラインの早期に格差/バイアスを特定することが重要である。
このプロアクティブなアプローチは、バイアスの増幅を防ぎ、モデル開発の後期段階で複雑さを減らすために、タイムリーな介入を促進する。
本稿では、MLパイプラインの初期段階におけるデータセットの格差の潜在的なリスクを積極的に評価する新しいフレームワークであるDispaRiskを導入するために、使用可能な情報理論の最近の進歩を活用する。
フェアネス研究においてよく使われるデータセットに対して、DispaRiskの有効性をベンチマークすることで評価する。
以上の結果から,識別リスクの高いデータセットを識別するDispaRiskの能力,MLパイプライン内のバイアスに起因するモデルファミリの検出,バイアスリスクの説明可能性の向上が示された。
この研究は、早期バイアス検出と緩和のための堅牢なツールを提供することにより、より公平なMLシステムの開発に寄与する。
実験用のコードは以下のリポジトリで利用可能です。
関連論文リスト
- Understanding and Mitigating the Bias Inheritance in LLM-based Data Augmentation on Downstream Tasks [24.706895491806794]
この研究は、バイアス継承を理解し、分析し、緩和する最初の体系的な研究である。
6種類のバイアスが、異なるバイアス比でどのように現れるかを分析する。
トークンベース,マスクベース,損失ベースの3つの緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-02-06T15:20:58Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - The Human Factor in Detecting Errors of Large Language Models: A Systematic Literature Review and Future Research Directions [0.0]
2022年11月、OpenAIによるChatGPTのローンチは人工知能の重要な瞬間となった。
大規模言語モデル (LLM) は、様々な領域で顕著な会話能力を示す。
これらのモデルは「幻覚」や省略といった誤りに影響を受けやすく、誤った情報や不完全な情報を生成する。
論文 参考訳(メタデータ) (2024-03-13T21:39:39Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - FairCVtest Demo: Understanding Bias in Multimodal Learning with a
Testbed in Fair Automatic Recruitment [79.23531577235887]
このデモは、非構造化データから機密情報を抽出する採用ツールの背後にある人工知能(AI)の能力を示しています。
また、このデモには差別認識学習のための新しいアルゴリズムが含まれており、マルチモーダルAIフレームワークの機密情報を排除している。
論文 参考訳(メタデータ) (2020-09-12T17:45:09Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。