論文の概要: Mitigating Biases in Language Models via Bias Unlearning
- arxiv url: http://arxiv.org/abs/2509.25673v1
- Date: Tue, 30 Sep 2025 02:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.983646
- Title: Mitigating Biases in Language Models via Bias Unlearning
- Title(参考訳): バイアスアンラーニングによる言語モデルにおけるバイアスの緩和
- Authors: Dianqing Liu, Yi Liu, Guoqing Jin, Zhendong Mao,
- Abstract要約: 両経路のアンラーニング機構によって目的のデバイアスを実現する新しいモデルデバイアスフレームワークであるBiasUnlearnを提案する。
その結果、BiasUnlearnは言語モデルにおけるバイアスを軽減するために既存の手法よりも優れており、言語モデリング能力は維持されていることがわかった。
- 参考スコア(独自算出の注目度): 27.565946855618368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many studies have shown various biases targeting different demographic groups in language models, amplifying discrimination and harming fairness. Recent parameter modification debiasing approaches significantly degrade core capabilities such as text coherence and task accuracy. And Prompt-based debiasing methods, only effective for predefined trigger words, fail to address deeply embedded stereotypical associations in model parameters. In this paper, we propose BiasUnlearn, a novel model debiasing framework which achieves targeted debiasing via dual-pathway unlearning mechanisms coordinating stereotype forgetting with anti-stereotype retention, while preventing bias polarity reversal through adversarial forget set and dynamic dataset swapping. We conducted extensive experiments with multiple language models across various evaluation benchmarks. The results show that BiasUnlearn outperforms existing methods in mitigating bias in language models while retaining language modeling capabilities. Further experiments reveal that debiasing weights are transferable across model variants, confirming that bias representations become entrenched during pre-training and persist through fine-tuning phases.
- Abstract(参考訳): 多くの研究は、言語モデルにおける異なる人口集団をターゲットにした様々なバイアスを示し、差別を増幅し、公正を害している。
近年,テキストコヒーレンスやタスク精度などのコア機能を著しく劣化させるパラメータ修正手法が提案されている。
そして、事前定義されたトリガーワードにのみ有効であるPromptベースのデバイアス法は、モデルパラメータに深く埋め込まれたステレオタイプ的関連に対処できない。
本稿では,両経路の非学習機構によって目的の偏りを解消する新たなモデル脱バイアスフレームワークであるBiasUnlearnを提案する。
様々な評価ベンチマークを用いて,複数の言語モデルを用いた広範囲な実験を行った。
その結果、BiasUnlearnは言語モデルにおけるバイアスを軽減するために既存の手法よりも優れており、言語モデリング能力は維持されていることがわかった。
さらなる実験により、偏りの重みはモデル変種間で伝達可能であることが判明し、偏りの表現が事前学習中に定着し、微調整フェーズを通して持続することが確認された。
関連論文リスト
- BiasEdit: Debiasing Stereotyped Language Models via Model Editing [40.57172805190225]
本稿では,言語モデルからステレオタイプバイアスを除去する効率的なモデル編集手法であるBiasEditを提案する。
BiasEditは、言語モデルの部分的なパラメータの局所的な編集を行うために、エディタネットワークをバイアスなく誘導する。
StereoSetとCrows-Pairsの実験はバイアス除去におけるBiasEditの有効性、効率、堅牢性を示している。
論文 参考訳(メタデータ) (2025-03-11T16:25:36Z) - REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。
LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。
複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文 参考訳(メタデータ) (2024-08-18T14:08:31Z) - Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Improving Bias Mitigation through Bias Experts in Natural Language
Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。
提案手法は補助モデルのバイアス識別能力を向上させる。
論文 参考訳(メタデータ) (2023-12-06T16:15:00Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。