論文の概要: Conceptor-Aided Debiasing of Large Language Models
- arxiv url: http://arxiv.org/abs/2211.11087v3
- Date: Mon, 30 Oct 2023 22:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:35:28.443529
- Title: Conceptor-Aided Debiasing of Large Language Models
- Title(参考訳): 大規模言語モデルの概念支援型デバイアス
- Authors: Li S. Yifei, Lyle Ungar, Jo\~ao Sedoc
- Abstract要約: 事前訓練された大規模言語モデル(LLM)は、トレーニングコーパスの社会的バイアスを反映している。
我々は,BERT や GPT などの LLM のバイアス部分空間を同定し,除去するためのソフトプロジェクション手法である概念を用いた。
提案手法は,(1)NOT操作による後処理によるバイアス部分空間の投影,(2)新しいアーキテクチャ,CI-BERT (Conceptor-intervened BERT) を提案する。
- 参考スコア(独自算出の注目度): 1.0435741631709405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large language models (LLMs) reflect the inherent social biases
of their training corpus. Many methods have been proposed to mitigate this
issue, but they often fail to debias or they sacrifice model accuracy. We use
conceptors--a soft projection method--to identify and remove the bias subspace
in LLMs such as BERT and GPT. We propose two methods of applying conceptors (1)
bias subspace projection by post-processing by the conceptor NOT operation; and
(2) a new architecture, conceptor-intervened BERT (CI-BERT), which explicitly
incorporates the conceptor projection into all layers during training. We find
that conceptor post-processing achieves state-of-the-art (SoTA) debiasing
results while maintaining LLMs' performance on the GLUE benchmark. Further, it
is robust in various scenarios and can mitigate intersectional bias efficiently
by its AND operation on the existing bias subspaces. Although CI-BERT's
training takes all layers' bias into account and can beat its post-processing
counterpart in bias mitigation, CI-BERT reduces the language model accuracy. We
also show the importance of carefully constructing the bias subspace. The best
results are obtained by removing outliers from the list of biased words,
combining them (via the OR operation), and computing their embeddings using the
sentences from a cleaner corpus.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、トレーニングコーパスの社会的バイアスを反映している。
この問題を軽減するために多くの方法が提案されているが、デビアスに失敗したり、モデルの精度を犠牲にしたりすることが多い。
我々は,BERT や GPT などの LLM のバイアス部分空間を同定し,除去するためのソフトプロジェクション手法である概念を用いた。
提案手法は, コンセプタ非操作による後処理によるバイアス部分空間投影と, (2) トレーニング中のすべてのレイヤにコンセプタ投影を明示的に組み込む新しいアーキテクチャであるconceptor-intervened bert (ci-bert) を提案する。
GLUEベンチマークでは,LLMの性能を維持しつつ,最先端(SoTA)のデバイアス結果を実現する。
さらに、様々なシナリオにおいてロバストであり、既存のバイアス部分空間上のAND演算により交差点バイアスを効率的に緩和することができる。
CI-BERTのトレーニングはすべてのレイヤのバイアスを考慮に入れ、バイアス軽減で後処理に勝てるが、CI-BERTは言語モデルの精度を低下させる。
また,バイアス部分空間を慎重に構築することの重要性を示す。
最善の結果は、偏りのある単語のリストから外れ値を削除し、それらを(or操作によって)組み合わせ、それらの埋め込みをよりクリーンなコーパスから計算することで得られる。
関連論文リスト
- Strengthening Multimodal Large Language Model with Bootstrapped
Preference Optimization [26.558671454453993]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Zero-Shot Position Debiasing for Large Language Models [41.601823886414294]
大規模言語モデル(LLM)における位置バイアスを軽減するため,ゼロショット位置バイアス(ZOE)フレームワークを提案する。
ZOEは3種類の位置バイアスを緩和する既存の手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Prompt Tuning Pushes Farther, Contrastive Learning Pulls Closer: A
Two-Stage Approach to Mitigate Social Biases [13.837927115198308]
本稿では,コントラスト学習と連続的プロンプト拡張を用いた逆トレーニングによる2段階脱バイアスモデルを提案する。
我々のアプローチは、トレーニングプロセスに困難を加えることで、より強固なデバイアス性能を達成するためのモデルを導出します。
論文 参考訳(メタデータ) (2023-07-04T09:35:03Z) - A Simple yet Effective Self-Debiasing Framework for Transformer Models [49.09053367249642]
現在のTransformerベースの自然言語理解(NLU)モデルは、データセットバイアスに大きく依存している。
本稿では,トランスフォーマーベースNLUモデルのための簡易かつ効果的な自己退化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-02T20:31:58Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Modular and On-demand Bias Mitigation with Attribute-Removal Subnetworks [10.748627178113418]
本稿では, 単独で高度に疎細なデビアシングワークからなる, 新たなモジュラーバイアス緩和手法を提案する。
我々は、性別、人種、年齢の3つの分類タスクを保護属性として実験する。
論文 参考訳(メタデータ) (2022-05-30T15:21:25Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。