論文の概要: Bias A-head? Analyzing Bias in Transformer-Based Language Model
Attention Heads
- arxiv url: http://arxiv.org/abs/2311.10395v1
- Date: Fri, 17 Nov 2023 08:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 15:24:18.800716
- Title: Bias A-head? Analyzing Bias in Transformer-Based Language Model
Attention Heads
- Title(参考訳): バイアスaヘッド?
変圧器型言語モデル注意ヘッドのバイアス解析
- Authors: Yi Yang, Hanyu Duan, Ahmed Abbasi, John P. Lalor, Kar Yan Tam
- Abstract要約: そこで本研究では,PLMの定型バイアスに寄与する少数のバイアスヘッドを探索し,同定するためのバイアス分析フレームワークを提案する。
本稿では,トランスフォーマーをベースとした2種類のPLM(エンコーダベースBERTモデル)とデコーダベース自己回帰GPTモデル(デコーダベースGPTモデル)において,英語の性差と人種バイアスについて検討する。
- 参考スコア(独自算出の注目度): 18.72717791142179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based pretrained large language models (PLM) such as BERT and GPT
have achieved remarkable success in NLP tasks. However, PLMs are prone to
encoding stereotypical biases. Although a burgeoning literature has emerged on
stereotypical bias mitigation in PLMs, such as work on debiasing gender and
racial stereotyping, how such biases manifest and behave internally within PLMs
remains largely unknown. Understanding the internal stereotyping mechanisms may
allow better assessment of model fairness and guide the development of
effective mitigation strategies. In this work, we focus on attention heads, a
major component of the Transformer architecture, and propose a bias analysis
framework to explore and identify a small set of biased heads that are found to
contribute to a PLM's stereotypical bias. We conduct extensive experiments to
validate the existence of these biased heads and to better understand how they
behave. We investigate gender and racial bias in the English language in two
types of Transformer-based PLMs: the encoder-based BERT model and the
decoder-based autoregressive GPT model. Overall, the results shed light on
understanding the bias behavior in pretrained language models.
- Abstract(参考訳): BERTやGPTのようなトランスフォーマーベースで事前訓練された大規模言語モデル(PLM)は、NLPタスクにおいて顕著な成功を収めた。
しかし、PLMはステレオタイプバイアスを符号化する傾向がある。
ジェンダーの偏りや人種的ステレオティピングといった PLM の定型的偏見緩和に関する文献が出現しているが、そのような偏見が PLM の内部でどのように現れ、どのように振る舞うかは明らかになっていない。
内部ステレオタイプ機構を理解することで、モデルフェアネスのより良い評価が可能になり、効果的な緩和戦略の開発を導くことができる。
本研究では,トランスフォーマーアーキテクチャの主要コンポーネントであるアテンションヘッドに着目し,plmのステレオタイプバイアスに寄与する小さなバイアスヘッドを探索し,同定するためのバイアス分析フレームワークを提案する。
偏りのある頭の存在を検証し、どのように振る舞うかをよりよく理解するために、広範な実験を行う。
本稿では,トランスフォーマーをベースとした2種類のPLM(エンコーダベースBERTモデル)とデコーダベース自己回帰GPTモデル(デコーダベースGPTモデル)において,英語の性差と人種バイアスについて検討する。
全体として、結果は事前訓練された言語モデルのバイアスの振る舞いを理解することに光を当てた。
関連論文リスト
- Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Unlocking Bias Detection: Leveraging Transformer-Based Models for
Content Analysis [1.980639720136382]
テキストにおけるバイアス検出は、負のステレオタイプ、誤情報、そして決定に影響を与えるために必須である。
これに対し、CBDT(Contextualized Bi-Directional Dual Transformer)を導入する。
CBDTは、偏見と中性ステートメントを区別する能力を示し、正確な偏見のレキセムを指摘している。
論文 参考訳(メタデータ) (2023-09-30T12:06:04Z) - Soft-prompt Tuning for Large Language Models to Evaluate Bias [0.03141085922386211]
ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
論文 参考訳(メタデータ) (2023-06-07T19:11:25Z) - BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for
Text Generation [89.41378346080603]
この研究は、PLMに基づくメトリクスにおける社会バイアスに関する最初の体系的研究である。
PLMをベースとした一般的な指標は,従来の6つの属性の指標よりも社会的偏見が著しく高いことが実証された。
さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。
論文 参考訳(メタデータ) (2022-10-14T08:24:11Z) - Identifying and Measuring Token-Level Sentiment Bias in Pre-trained
Language Models with Prompts [7.510757198308537]
大規模事前訓練言語モデル(PLM)は、社会の多くの側面において広く採用されている。
近年のプロンプトチューニングの進歩は, PLMの内部機構を探求する可能性を示している。
我々は2つのトークンレベル感情テストを提案する: 感性アソシエーションテスト(SAT)と感性シフトテスト(SST)。
論文 参考訳(メタデータ) (2022-04-15T02:01:31Z) - How Gender Debiasing Affects Internal Model Representations, and Why It
Matters [26.993273464725995]
内因性バイアスは、標準のWEAT測定値よりもデバイアスの指標として優れていることを示す。
当社のフレームワークは,NLPモデルのバイアスを包括的に把握し,より情報のある方法でNLPシステムのデプロイに適用することができる。
論文 参考訳(メタデータ) (2022-04-14T08:54:15Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。