論文の概要: fairBERTs: Erasing Sensitive Information Through Semantic and Fairness-aware Perturbations
- arxiv url: http://arxiv.org/abs/2407.08189v1
- Date: Thu, 11 Jul 2024 05:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:48:48.824940
- Title: fairBERTs: Erasing Sensitive Information Through Semantic and Fairness-aware Perturbations
- Title(参考訳): fairBERTs: 意味と公正を意識した摂動を通じて知覚情報を消去する
- Authors: Jinfeng Li, Yuefeng Chen, Xiangyu Liu, Longtao Huang, Rong Zhang, Hui Xue,
- Abstract要約: フェアチューニングされたBERT系列モデルを学習するためのフレームワークである FairBERT を提示する。
モデルユーティリティを維持しながら不公平を緩和する上で, フェアバーティの優れた優位性を実証する。
- 参考スコア(独自算出の注目度): 35.60919203938758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have revolutionized both the natural language processing research and applications. However, stereotypical biases (e.g., gender and racial discrimination) encoded in PLMs have raised negative ethical implications for PLMs, which critically limits their broader applications. To address the aforementioned unfairness issues, we present fairBERTs, a general framework for learning fair fine-tuned BERT series models by erasing the protected sensitive information via semantic and fairness-aware perturbations generated by a generative adversarial network. Through extensive qualitative and quantitative experiments on two real-world tasks, we demonstrate the great superiority of fairBERTs in mitigating unfairness while maintaining the model utility. We also verify the feasibility of transferring adversarial components in fairBERTs to other conventionally trained BERT-like models for yielding fairness improvements. Our findings may shed light on further research on building fairer fine-tuned PLMs.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は自然言語処理の研究と応用の両方に革命をもたらした。
しかし、PLMに符号化されたステレオタイプバイアス(例えば、性別や人種差別)は、PLMに否定的な倫理的影響を生じさせ、その幅広い応用を批判的に制限している。
上記の不公平性問題に対処するために、生成的敵ネットワークによって生成される意味的および公平性に配慮した摂動を通じて、保護されたセンシティブな情報を消去することで、公平に調整されたBERTシリーズモデルを学習するための一般的なフレームワークである FairBERT を提案する。
実世界の2つのタスクの定性的かつ定量的な実験を通じて、モデルの実用性を維持しながら不公平さを緩和するフェアバーティの優れた優位性を実証する。
また、フェアネス改善を実現するために、他のトレーニングされたBERT様モデルに、フェアBERTの逆成分を転送する可能性についても検証した。
我々の発見は、より精巧なPLMの構築に関するさらなる研究に光を当てるかもしれない。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。
これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。
本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。
論文 参考訳(メタデータ) (2024-07-11T12:30:19Z) - FairPFN: Transformers Can do Counterfactual Fairness [41.052676173417574]
因果的および反事実的公正性は、法的な基準と密接に一致した公正性を定義する直感的な方法を提供する。
本研究は、FairPFNと呼ばれる変圧器を学習するために、文脈学習(ICL)および事前適応ネットワーク(PFN)における最近の研究に基づいている。
このモデルは、観測データから直接保護属性の因果効果を除去するために、合成公正データを用いて事前訓練される。
論文 参考訳(メタデータ) (2024-07-08T08:36:44Z) - LIDAO: Towards Limited Interventions for Debiasing (Large) Language Models [19.18522268167047]
大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて印象的なパフォーマンスを達成した。
しかし、一部の人口集団に偏った、ネガティブで有害なコンテンツを生み出すことに苦しむ。
本稿では,(L)LMを高い流速で脱バイアスするフレームワークであるLIDAOを提案する。
論文 参考訳(メタデータ) (2024-06-01T20:12:54Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - COFFEE: Counterfactual Fairness for Personalized Text Generation in
Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。
説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-14T02:29:10Z) - Developing a novel fair-loan-predictor through a multi-sensitive
debiasing pipeline: DualFair [2.149265948858581]
我々は、DualFairと呼ばれる新しいバイアス緩和手法を作成し、MSPSOを扱える新しい公正度指標(すなわち、AWI)を開発する。
我々は、米国住宅ローンの包括的データセットを用いて、新しい緩和手法を検証し、我々の分類器、すなわち公正貸付予測器が、現在の最先端モデルよりも優れた公正度と精度の指標を得ることを示す。
論文 参考訳(メタデータ) (2021-10-17T23:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。