論文の概要: Conceptor-Aided Debiasing of Large Language Models
- arxiv url: http://arxiv.org/abs/2211.11087v2
- Date: Wed, 24 May 2023 04:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 02:50:06.349717
- Title: Conceptor-Aided Debiasing of Large Language Models
- Title(参考訳): 大規模言語モデルの概念支援型デバイアス
- Authors: Yifei Li, Lyle Ungar, Jo\~ao Sedoc
- Abstract要約: 事前訓練された大規模言語モデル(LLM)は、トレーニングコーパスの社会的バイアスを反映している。
我々は,BERT や GPT などの LLM のバイアス部分空間を同定し,除去するためのソフトプロジェクション手法である概念を用いた。
提案手法は,(1)後処理によるバイアス部分空間投影,(2)新しいアーキテクチャ,CI-BERT (Conceptor-intervened BERT) を提案する。
- 参考スコア(独自算出の注目度): 10.042252785478476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large language models (LLMs) reflect the inherent social biases
of their training corpus. Many methods have been proposed to mitigate this
issue, but they often fail to debias or they sacrifice model accuracy. We use
conceptors--a soft projection method--to identify and remove the bias subspace
in LLMs such as BERT and GPT. We propose two methods of applying conceptors (1)
bias subspace projection by post-processing; and (2) a new architecture,
conceptor-intervened BERT (CI-BERT), which explicitly incorporates the
conceptor projection into all layers during training. We find that conceptor
post-processing achieves state-of-the-art (SoTA) debiasing results while
maintaining or improving LLMs' performance on the GLUE benchmark. Also, it is
robust in various scenarios and can mitigate intersectional bias efficiently by
its logical operation on the existing bias subspaces. Although CI-BERT's
training takes all layers' bias into account and can beat its post-processing
counterpart in bias mitigation, CI-BERT reduces the language model accuracy. We
also show the importance of carefully constructing the bias subspace. The best
results are obtained by removing outliers from the list of biased words,
combining them (via the conceptor AND operation), and computing their
embeddings using the sentences from a cleaner corpus.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、トレーニングコーパスの社会的バイアスを反映している。
この問題を軽減するために多くの方法が提案されているが、デビアスに失敗したり、モデルの精度を犠牲にしたりすることが多い。
我々は,BERT や GPT などの LLM のバイアス部分空間を同定し,除去するためのソフトプロジェクション手法である概念を用いた。
提案手法は,(1) ポストプロセッシングによるバイアス部分空間投影,(2) トレーニング中のすべての層にコンセプタ投影を明示的に組み込む新しいアーキテクチャ,conceptor-intervened bert (ci-bert) の2つである。
GLUEベンチマークでLLMの性能を維持・改善しながら, 最先端(SoTA)のデバイアス化を達成できることが判明した。
また、様々なシナリオにおいて頑健であり、既存のバイアス部分空間上の論理演算により交叉バイアスを効率的に軽減することができる。
CI-BERTのトレーニングはすべてのレイヤのバイアスを考慮に入れ、バイアス軽減で後処理に勝てるが、CI-BERTは言語モデルの精度を低下させる。
また,バイアス部分空間を慎重に構築することの重要性を示す。
最善の結果は、偏りのある単語のリストから外れたものを取り除き、それらを(概念と操作を通して)組み合わせ、それらの埋め込みをクリーンなコーパスから計算することで得られる。
関連論文リスト
- CosFairNet:A Parameter-Space based Approach for Bias Free Learning [1.9116784879310025]
バイアス付きデータに基づいてトレーニングされたディープニューラルネットワークは、意図しない推論ルールを不注意に学習することが多い。
本稿では,モデルのパラメータ空間内で直接バイアスに対処する新しい手法を提案する。
各種合成および実世界のデータセットにおいて,分類精度の向上と偏りの低減効果を示す。
論文 参考訳(メタデータ) (2024-10-19T13:06:40Z) - Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。
我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-20T07:40:12Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Self-Supervised Position Debiasing for Large Language Models [39.261233221850155]
大規模言語モデル(LLM)における位置バイアスを軽減するための自己教師型位置偏差検出(SOD)フレームワークを提案する。
8つのデータセットと5つのタスクの実験により、SODは3つのタイプの位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - A Simple yet Effective Self-Debiasing Framework for Transformer Models [49.09053367249642]
現在のTransformerベースの自然言語理解(NLU)モデルは、データセットバイアスに大きく依存している。
本稿では,トランスフォーマーベースNLUモデルのための簡易かつ効果的な自己退化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-02T20:31:58Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。