論文の概要: Do Not Harm Protected Groups in Debiasing Language Representation Models
- arxiv url: http://arxiv.org/abs/2310.18458v1
- Date: Fri, 27 Oct 2023 20:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:35:01.396957
- Title: Do Not Harm Protected Groups in Debiasing Language Representation Models
- Title(参考訳): デバイアス言語表現モデルにおける保護グループを傷つけるな
- Authors: Chloe Qinyu Zhu, Rickard Stureborg, Brandon Fain
- Abstract要約: 実世界のデータで訓練された言語表現モデル(LRM)は、望ましくないバイアスを捕捉し、悪化させる可能性がある。
実世界のテキスト分類タスクにおいて, 4つのデバイアス化手法について検討し, 全ての人口集団において, バイアスの低減が性能低下の犠牲となることを示す。
- 参考スコア(独自算出の注目度): 2.9057513016551244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Representation Models (LRMs) trained with real-world data may
capture and exacerbate undesired bias and cause unfair treatment of people in
various demographic groups. Several techniques have been investigated for
applying interventions to LRMs to remove bias in benchmark evaluations on, for
example, word embeddings. However, the negative side effects of debiasing
interventions are usually not revealed in the downstream tasks. We propose
xGAP-DEBIAS, a set of evaluations on assessing the fairness of debiasing. In
this work, We examine four debiasing techniques on a real-world text
classification task and show that reducing biasing is at the cost of degrading
performance for all demographic groups, including those the debiasing
techniques aim to protect. We advocate that a debiasing technique should have
good downstream performance with the constraint of ensuring no harm to the
protected group.
- Abstract(参考訳): 実世界のデータで訓練された言語表現モデル(LRM)は、望ましくない偏見を捉え、悪化させ、様々な人口集団の人々の不公平な扱いを引き起こす可能性がある。
単語埋め込みなどのベンチマーク評価におけるバイアスを取り除くため, LRMに介入する手法がいくつか研究されている。
しかし、デバイアス介入の副作用は通常下流タスクでは明らかにされない。
本稿では,偏見の公平性を評価するための評価セットであるxGAP-DEBIASを提案する。
本研究は,現実のテキスト分類タスクにおける4つのデバイアス手法について検討し,デバイアス化手法が保護を目的としているものを含め,すべての人口集団において,バイアスの低減が性能低下のコストとなることを示す。
我々は,保護集団に害を与えないような制約で,デバイアスング技術は下流のパフォーマンスを良くするべきだと主張する。
関連論文リスト
- Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization [13.773597081543185]
本稿では,組込みのクラスワイドな分散に基づく新しいデバイアス正規化手法を提案する。
提案手法は属性ラベルを必要とせず,属性をターゲットとせず,既存のデバイアス手法の欠点に対処する。
論文 参考訳(メタデータ) (2024-09-29T03:56:50Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - How Far Can It Go?: On Intrinsic Gender Bias Mitigation for Text
Classification [12.165921897192902]
そこで,本研究では,本態性バイアス緩和戦略が下流テキスト分類タスクに与える影響について検討する。
それぞれの緩和技術は、固有のバイアス対策からバイアスを隠すことができるが、すべてではないことを示す。
我々は、本質的なバイアス軽減手法と、下流タスクに対する他の公平な介入を組み合わせることを推奨する。
論文 参考訳(メタデータ) (2023-01-30T13:05:48Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - An Empirical Survey of the Effectiveness of Debiasing Techniques for
Pre-Trained Language Models [4.937002982255573]
最近の研究によると、事前学習された言語モデルは、訓練されたテキストコーパスから社会的偏見を捉えている。
最近提案された5つのデバイアス技術: 対実データ拡張、ドロップアウト、イテレーティブヌルスペース投影、セルフデバイアス、センテンスデバイアス。
3つの異なるバイアスベンチマークを用いて各手法の有効性を定量化するとともに,これらの手法がモデル言語モデリング能力に与える影響を計測する。
論文 参考訳(メタデータ) (2021-10-16T09:40:30Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Unsupervised Learning of Debiased Representations with Pseudo-Attributes [85.5691102676175]
教師なし方式で,単純かつ効果的な脱バイアス手法を提案する。
特徴埋め込み空間上でクラスタリングを行い、クラスタリング結果を利用して疑似属性を識別する。
次に,非偏り表現を学習するために,クラスタベースの新しい重み付け手法を用いる。
論文 参考訳(メタデータ) (2021-08-06T05:20:46Z) - RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of
Conversational Language Models [37.98671828283487]
テキスト表現モデルは、様々な社会的バイアスを示す傾向がある。
最近の研究は、事前訓練された言語モデルにおけるバイアスの測定と緩和に重点を置いている。
RedditBiasは、Redditによる人間の会話をベースとした初めての会話データセットだ。
論文 参考訳(メタデータ) (2021-06-07T11:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。