論文の概要: The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2406.10130v1
- Date: Fri, 14 Jun 2024 15:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:56:41.119838
- Title: The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models
- Title(参考訳): ニューロンの悪魔--事前学習型言語モデルにおける社会的バイアスの解釈と緩和-
- Authors: Yan Liu, Yu Liu, Xiaokang Chen, Pin-Yu Chen, Daoguang Zan, Min-Yen Kan, Tsung-Yi Ho,
- Abstract要約: プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
- 参考スコア(独自算出の注目度): 78.69526166193236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Language models (PLMs) have been acknowledged to contain harmful information, such as social biases, which may cause negative social impacts or even bring catastrophic results in application. Previous works on this problem mainly focused on using black-box methods such as probing to detect and quantify social biases in PLMs by observing model outputs. As a result, previous debiasing methods mainly finetune or even pre-train language models on newly constructed anti-stereotypical datasets, which are high-cost. In this work, we try to unveil the mystery of social bias inside language models by introducing the concept of {\sc Social Bias Neurons}. Specifically, we propose {\sc Integrated Gap Gradients (IG$^2$)} to accurately pinpoint units (i.e., neurons) in a language model that can be attributed to undesirable behavior, such as social bias. By formalizing undesirable behavior as a distributional property of language, we employ sentiment-bearing prompts to elicit classes of sensitive words (demographics) correlated with such sentiments. Our IG$^2$ thus attributes the uneven distribution for different demographics to specific Social Bias Neurons, which track the trail of unwanted behavior inside PLM units to achieve interoperability. Moreover, derived from our interpretable technique, {\sc Bias Neuron Suppression (BNS)} is further proposed to mitigate social biases. By studying BERT, RoBERTa, and their attributable differences from debiased FairBERTa, IG$^2$ allows us to locate and suppress identified neurons, and further mitigate undesired behaviors. As measured by prior metrics from StereoSet, our model achieves a higher degree of fairness while maintaining language modeling ability with low cost.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、社会的バイアスのような有害な情報を含んでいると認識されており、これは社会に悪影響を及ぼしたり、壊滅的な結果をもたらすこともある。
これまでの研究は主に、モデル出力を観察して、PLMにおける社会的バイアスを検出し定量化するためのプローブのようなブラックボックス手法を使うことに重点を置いていた。
その結果、従来のデバイアス法は主に、低コストで新しく構築された反ステレオタイプデータセットのファインチューンやプレトレイン言語モデルであった。
本研究では, 言語モデルにおける社会的バイアスの謎を明らかにするために, {\sc Social Bias Neurons} の概念を導入する。
具体的には、社会的偏見などの望ましくない振る舞いに起因した言語モデルにおいて、正確に単位(ニューロン)をピンポイントする。
言語の分布特性として好ましくない振る舞いを形式化することにより、感傷的な単語(デモグラフィー)のクラスをそのような感情に関連付けるために感情提示プロンプトを採用する。
IG$^2$は、異なる人口層に対する不均一な分布を特定の社会バイアスニューロンに特化させ、相互運用を実現するためにPLMユニット内の望ましくない行動の軌跡を追跡する。
さらに, 社会的バイアスを軽減するために, 解釈可能な手法であるBNS(Bias Neuron Suppression)が提案されている。
BERT,RoBERTa,および偏りのないFairBERTaとの違いを調べたところ、IG$^2$は特定されたニューロンの発見と抑制を可能にし、さらに望ましくない行動の軽減を可能にした。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
関連論文リスト
- On the social bias of speech self-supervised models [45.787612513520386]
SSLモデルの社会的バイアスは、差別的パターンを自動化し、不平等なシステムを補強することによって、不公平を永続することができる。
モデルアーキテクチャやサイズ,トレーニング方法論といったさまざまな要因が,これらのモデル内の社会的バイアスの伝播にどのように影響するかを考察する。
以上の結果から,行プルーニングやトレーニングなどの手法を用いることで,SSLモデル内の社会的バイアスを効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-06-07T15:07:07Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - BLIND: Bias Removal With No Demographics [29.16221451643288]
我々は、データセットの人口統計学の事前知識のないバイアス除去手法であるBLINDを紹介する。
下流タスクでモデルをトレーニングしている間、BLINDは、メインモデルの成功を予測する補助モデルを使用してバイアス付きサンプルを検出し、トレーニングプロセス中にこれらのサンプルをダウンウェイトする。
感情分類と職業分類タスクにおける人種的および性別的偏見による実験は、BLINDがコストのかかる人口統計学的アノテーションプロセスに頼ることなく社会的偏見を緩和することを示した。
論文 参考訳(メタデータ) (2022-12-20T18:59:42Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Interventions for Ranking in the Presence of Implicit Bias [34.23230188778088]
帰属バイアス(英語: Implicit bias)とは、特定の社会的グループのメンバーに対する特定の性質(またはその欠如)の無意識の帰属である。
ルーニールール(英: Rooney Rule)は、サブセット選択問題の特定のケースにおける結果の有用性を改善するための制約である。
我々は、単純で解釈可能な制約の族を示し、それらが暗黙のバイアスを最適に軽減できることを示す。
論文 参考訳(メタデータ) (2020-01-23T19:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。