論文の概要: Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.07787v1
- Date: Thu, 10 Apr 2025 14:23:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:27.401812
- Title: Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models
- Title(参考訳): フェアネス・メディエータ:大規模言語モデルにおけるバイアス軽減のためのステレオタイプ協会の中立化
- Authors: Yisong Xiao, Aishan Liu, Siyuan Liang, Xianglong Liu, Dacheng Tao,
- Abstract要約: LLMは必然的にトレーニングデータから急激な相関関係を吸収し、偏りのある概念と特定の社会的グループの間のステレオタイプ的関連をもたらす。
ステレオタイプアソシエーションを中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。
本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
- 参考スコア(独自算出の注目度): 66.5536396328527
- License:
- Abstract: LLMs have demonstrated remarkable performance across diverse applications, yet they inadvertently absorb spurious correlations from training data, leading to stereotype associations between biased concepts and specific social groups. These associations perpetuate and even amplify harmful social biases, raising significant fairness concerns. To mitigate such biases, prior studies have attempted to project model embeddings into unbiased spaces during inference. However, these approaches have shown limited effectiveness due to their weak alignment with downstream social biases. Inspired by the observation that concept cognition in LLMs is primarily represented through a linear associative memory mechanism, where key-value mapping occurs in the MLP layers, we posited that biased concepts and social groups are similarly encoded as entity (key) and information (value) pairs, which can be manipulated to promote fairer associations. To this end, we propose Fairness Mediator (FairMed), a bias mitigation framework that neutralizes stereotype associations. Our framework comprises two main components: a stereotype association prober and an adversarial debiasing neutralizer. The prober captures stereotype associations encoded within MLP layer activations by employing prompts centered around biased concepts to detect the emission probabilities for social groups. Subsequently, the adversarial debiasing neutralizer intervenes in MLP activations during inference to equalize the association probabilities among different social groups. Extensive experiments across nine protected attributes show that FairMed significantly outperforms SOTA methods in effectiveness. Compared to the most effective baseline, FairMed presents competitive efficiency by cutting mitigation overhead by hundreds of minutes. FairMed also maintains the LLM's language understanding capabilities without compromising overall performance.
- Abstract(参考訳): LLMは様々な応用において顕著な性能を示してきたが、トレーニングデータから急激な相関関係を必然的に吸収し、偏見のある概念と特定の社会的グループの間のステレオタイプ的関連を導いた。
これらの関係は、有害な社会的偏見を持続し、さらに増幅し、重要な公平性への懸念を提起する。
このようなバイアスを軽減するために、事前の研究は推論中に非バイアス空間へのモデル埋め込みを投影しようと試みてきた。
しかし、これらのアプローチは下流の社会的偏見との整合が弱いため、効果が限られている。
LLMにおける概念認知は、主に、MLP層にキー-値マッピングが生じる線形連想記憶機構によって表現されるという観察にインスパイアされ、バイアスされた概念と社会集団は、同様にエンティティ(キー)と情報(バリュー)ペアとして符号化され、より公平な関連を促進することができると仮定した。
この目的のために,ステレオタイプ関連を中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。
本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
プロバーは、社会集団の排出確率を検出するために偏りのある概念を中心としたプロンプトを用いて、MLP層活性化にコードされたステレオタイプ関連を捕捉する。
その後、逆行性嫌気性中和剤は、異なる社会集団間の結合確率を等しくするために、推測中にMLP活性化に介入する。
9つの保護属性にわたる大規模な実験により、FairMedはSOTA法よりも有効性が高いことが示された。
最も効果的なベースラインと比較すると、FairMedはオーバーヘッドを数百分削減することで競争効率を向上する。
FairMedは、全体的なパフォーマンスを損なうことなく、LLMの言語理解能力も維持している。
関連論文リスト
- A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - A Group Fairness Lens for Large Language Models [34.0579082699443]
大規模な言語モデルは、ソーシャルメディアの文脈に展開する際の偏見と不公平さを永久に防ぐことができる。
多様な社会集団を特徴付ける新しい階層型スキーマを用いて,グループフェアネスレンズからLLMバイアスを評価する。
我々は,グループフェアネスの観点からLLMのバイアスを軽減するために,GF-Thinkという新しいチェーン・オブ・シンク法を考案した。
論文 参考訳(メタデータ) (2023-12-24T13:25:15Z) - Confronting LLMs with Traditional ML: Rethinking the Fairness of Large Language Models in Tabular Classifications [23.963586791210414]
大規模言語モデル (LLM) は, 学習データから社会的偏見を継承する傾向にあり, 分類作業における公平性に大きな影響を及ぼすことを示した。
この観察は、社会的バイアスがLSM自体に固有のものであり、事前学習されたコーパスから継承されていることを強調している。
論文 参考訳(メタデータ) (2023-10-23T06:31:28Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Group fairness without demographics using social networks [29.073125057536014]
グループフェアネス(英: Group Fairness)は、人種、性別、障害などのセンシティブな属性に基づいて、個人の好ましくない扱いを防止するための一般的なアプローチである。
そこで本稿では, センシティブな属性に依存しないフェアネスの「グループフリー」尺度を提案する。
論文 参考訳(メタデータ) (2023-05-19T00:45:55Z) - Fair Contrastive Learning for Facial Attribute Classification [25.436462696033846]
公正な視覚表現学習のためのFair Supervised Contrastive Loss (FSCL)を提案する。
本稿では,教師付きコントラスト学習による不公平性を初めて分析する。
提案手法はデータバイアスの強度に頑健であり,不完全な教師付き設定で効果的に機能する。
論文 参考訳(メタデータ) (2022-03-30T11:16:18Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Fairness-aware Class Imbalanced Learning [57.45784950421179]
つぶやきの感情と職業分類のロングテール学習手法を評価する。
フェアネスを強制する手法により、マージンロスに基づくアプローチを拡張します。
論文 参考訳(メタデータ) (2021-09-21T22:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。