論文の概要: Understanding and Mitigating Gender Bias in LLMs via Interpretable Neuron Editing
- arxiv url: http://arxiv.org/abs/2501.14457v1
- Date: Fri, 24 Jan 2025 12:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:57:15.016728
- Title: Understanding and Mitigating Gender Bias in LLMs via Interpretable Neuron Editing
- Title(参考訳): 解釈可能なニューロン編集によるLDMにおける性バイアスの理解と緩和
- Authors: Zeping Yu, Sophia Ananiadou,
- Abstract要約: 大きな言語モデル(LLM)は、しばしばジェンダーバイアスを示し、安全なデプロイメントのための課題を提起する。
我々の分析では、モデルにまたがる広範囲なバイアスを明らかにし、ジェンダーニューロンや一般的なニューロンを含む特定のニューロン回路を同定する。
本稿では,ロジットベースと因果ベースの戦略を組み合わせた解釈可能なニューロン編集手法を提案する。
- 参考スコア(独自算出の注目度): 19.472889262384818
- License:
- Abstract: Large language models (LLMs) often exhibit gender bias, posing challenges for their safe deployment. Existing methods to mitigate bias lack a comprehensive understanding of its mechanisms or compromise the model's core capabilities. To address these issues, we propose the CommonWords dataset, to systematically evaluate gender bias in LLMs. Our analysis reveals pervasive bias across models and identifies specific neuron circuits, including gender neurons and general neurons, responsible for this behavior. Notably, editing even a small number of general neurons can disrupt the model's overall capabilities due to hierarchical neuron interactions. Based on these insights, we propose an interpretable neuron editing method that combines logit-based and causal-based strategies to selectively target biased neurons. Experiments on five LLMs demonstrate that our method effectively reduces gender bias while preserving the model's original capabilities, outperforming existing fine-tuning and editing approaches. Our findings contribute a novel dataset, a detailed analysis of bias mechanisms, and a practical solution for mitigating gender bias in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしばジェンダーバイアスを示し、安全なデプロイメントのための課題を提起する。
バイアスを軽減する既存の方法は、そのメカニズムの包括的な理解を欠き、モデルのコア能力を損なう。
これらの問題に対処するため,LLMにおけるジェンダーバイアスを体系的に評価するCommonWordsデータセットを提案する。
我々の分析では、モデルにまたがる幅広いバイアスを明らかにし、性別ニューロンや一般ニューロンを含む特定のニューロン回路を同定し、この行動に責任を負う。
特に、少数の一般ニューロンでさえ編集することで、階層的なニューロン相互作用によってモデル全体の能力を損なう可能性がある。
これらの知見に基づいて,ロジットベースと因果ベースの戦略を組み合わせた解釈可能なニューロン編集手法を提案し,偏りのあるニューロンを選択的に標的とした。
5つのLCM実験により,本手法はモデルの本来の能力を保ちながら,ジェンダーバイアスを効果的に低減し,既存の微調整・編集手法より優れていることが示された。
本研究は, 新たなデータセット, バイアス機構の詳細な解析, およびLCMにおける性バイアス軽減のための実践的解決に寄与する。
関連論文リスト
- The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z) - Cognitive Bias in Decision-Making with LLMs [19.87475562475802]
大規模言語モデル(LLM)は、幅広い意思決定タスクをサポートするツールとして大きな可能性を秘めている。
LLMは保護されたグループに対する社会的バイアスを継承し、認知バイアスと機能的に類似している。
私たちの研究は、LLMの認知バイアスを発見し、評価し、緩和するために設計されたフレームワークであるBiasBusterを紹介します。
論文 参考訳(メタデータ) (2024-02-25T02:35:56Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Word Embeddings via Causal Inference: Gender Bias Reducing and Semantic
Information Preserving [3.114945725130788]
本稿では、因果推論の枠組みを利用して、ジェンダーバイアスを効果的に除去する手法を提案する。
総括実験により,提案手法は男女の偏りを解消する作業において,最先端の成果を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-12-09T19:57:22Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Causal Mediation Analysis for Interpreting Neural NLP: The Case of
Gender Bias [45.956112337250275]
本稿では, 因果媒介分析の理論に基づく手法を提案し, モデルのどの部分が因果関係に関係しているかを解釈する。
本研究では,事前学習したトランスフォーマー言語モデルにおける性別バイアスの分析に本手法を適用した。
媒介分析の結果,性別バイアス効果は (i) ネットワークのごく一部に集中しており, (ii) 相乗的, 増幅的, あるいは抑圧的であり, (iii) 入力から直接的に, 仲介者を通して間接的に流れる効果に分解可能であることがわかった。
論文 参考訳(メタデータ) (2020-04-26T01:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。