論文の概要: BiasEdit: Debiasing Stereotyped Language Models via Model Editing
- arxiv url: http://arxiv.org/abs/2503.08588v1
- Date: Tue, 11 Mar 2025 16:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:37.176156
- Title: BiasEdit: Debiasing Stereotyped Language Models via Model Editing
- Title(参考訳): BiasEdit: モデル編集によるステレオ型言語モデルの曖昧化
- Authors: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley,
- Abstract要約: 本稿では,言語モデルからステレオタイプバイアスを除去する効率的なモデル編集手法であるBiasEditを提案する。
BiasEditは、言語モデルの部分的なパラメータの局所的な編集を行うために、エディタネットワークをバイアスなく誘導する。
StereoSetとCrows-Pairsの実験はバイアス除去におけるBiasEditの有効性、効率、堅牢性を示している。
- 参考スコア(独自算出の注目度): 40.57172805190225
- License:
- Abstract: Previous studies have established that language models manifest stereotyped biases. Existing debiasing strategies, such as retraining a model with counterfactual data, representation projection, and prompting often fail to efficiently eliminate bias or directly alter the models' biased internal representations. To address these issues, we propose BiasEdit, an efficient model editing method to remove stereotypical bias from language models through lightweight networks that act as editors to generate parameter updates. BiasEdit employs a debiasing loss guiding editor networks to conduct local edits on partial parameters of a language model for debiasing while preserving the language modeling abilities during editing through a retention loss. Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness, efficiency, and robustness of BiasEdit in eliminating bias compared to tangental debiasing baselines and little to no impact on the language models' general capabilities. In addition, we conduct bias tracing to probe bias in various modules and explore bias editing impacts on different components of language models.
- Abstract(参考訳): 以前の研究では、言語モデルがステレオタイプバイアスを示すことが確認されている。
カウンターファクトデータによるモデルの再トレーニング、表現プロジェクション、プロンプトといった既存のデバイアス戦略は、しばしばバイアスを効率的に排除したり、モデルの内部表現を直接変更したりするのに失敗する。
これらの問題に対処するために,BiasEditを提案する。BiasEditは,パラメータ更新を生成するためのエディタとして機能する軽量ネットワークを通じて,言語モデルからステレオタイプバイアスを除去する,効率的なモデル編集手法である。
BiasEditは、エディタネットワークをデバイアスする損失を誘導し、保留損失を通じて編集中の言語モデリング能力を保ちながら、デバイアスのための言語モデルの部分的なパラメータを局所的に編集する。
StereoSet と Crows-Pairs の実験は、言語モデルの一般的な機能にほとんど影響しない、先進的なデバイアスのベースラインに比べてバイアスを取り除く上で、BiasEdit の有効性、効率、堅牢性を実証している。
さらに,様々なモジュールのバイアスを探索するバイアストレースを行い,言語モデルの異なるコンポーネントに対するバイアス編集の影響について検討する。
関連論文リスト
- Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models [17.77377809345631]
モデル編集手法は,編集後のモデルバイアスを予期せず増幅する方法について検討する。
具体的には、人種、地理的起源、性別などの人口特性に関するバイアスに焦点を当てる。
編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する信頼性が低下するにつれて、様々な程度にバイアスのかかる行動を示す。
論文 参考訳(メタデータ) (2024-02-29T23:11:55Z) - Potential and Challenges of Model Editing for Social Debiasing [20.186721346693577]
巨大なコーパスで訓練された大言語モデル(LLM)は、避けられないステレオタイプバイアスに悩まされる。
これらのバイアスを微調整で緩和することは、費用もデータもかかる。
ポストホックな方法でLLMを変更することに焦点を当てたモデル編集手法は、デバイアスに対処する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-21T01:35:26Z) - Current Topological and Machine Learning Applications for Bias Detection
in Text [4.799066966918178]
本研究はRedditBiasデータベースを用いてテキストバイアスの分析を行う。
BERTおよびRoBERTaの変種を含む4つの変圧器モデルについて検討した。
発見によるとBERT、特にミニBERTはバイアス分類に優れており、多言語モデルは遅延している。
論文 参考訳(メタデータ) (2023-11-22T16:12:42Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。