論文の概要: Causal Mediation Analysis for Interpreting Neural NLP: The Case of
Gender Bias
- arxiv url: http://arxiv.org/abs/2004.12265v2
- Date: Sun, 22 Nov 2020 07:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 13:28:13.895577
- Title: Causal Mediation Analysis for Interpreting Neural NLP: The Case of
Gender Bias
- Title(参考訳): 神経nlpの解釈における因果的調停分析 : 性バイアスの場合
- Authors: Jesse Vig, Sebastian Gehrmann, Yonatan Belinkov, Sharon Qian, Daniel
Nevo, Simas Sakenis, Jason Huang, Yaron Singer, Stuart Shieber
- Abstract要約: 本稿では, 因果媒介分析の理論に基づく手法を提案し, モデルのどの部分が因果関係に関係しているかを解釈する。
本研究では,事前学習したトランスフォーマー言語モデルにおける性別バイアスの分析に本手法を適用した。
媒介分析の結果,性別バイアス効果は (i) ネットワークのごく一部に集中しており, (ii) 相乗的, 増幅的, あるいは抑圧的であり, (iii) 入力から直接的に, 仲介者を通して間接的に流れる効果に分解可能であることがわかった。
- 参考スコア(独自算出の注目度): 45.956112337250275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common methods for interpreting neural models in natural language processing
typically examine either their structure or their behavior, but not both. We
propose a methodology grounded in the theory of causal mediation analysis for
interpreting which parts of a model are causally implicated in its behavior. It
enables us to analyze the mechanisms by which information flows from input to
output through various model components, known as mediators. We apply this
methodology to analyze gender bias in pre-trained Transformer language models.
We study the role of individual neurons and attention heads in mediating gender
bias across three datasets designed to gauge a model's sensitivity to gender
bias. Our mediation analysis reveals that gender bias effects are (i) sparse,
concentrated in a small part of the network; (ii) synergistic, amplified or
repressed by different components; and (iii) decomposable into effects flowing
directly from the input and indirectly through the mediators.
- Abstract(参考訳): 自然言語処理におけるニューラルモデル解釈の一般的な手法は、その構造と振舞いの両方を調べるが、両方ではない。
因果媒介分析理論を基礎として,モデルのどの部分がその行動に因果的に関係しているかを解釈する手法を提案する。
これにより、入力から出力へ情報を流れるメカニズムを、仲介者として知られる様々なモデルコンポーネントを通して分析することができる。
本手法は,事前学習されたトランスフォーマー言語モデルにおけるジェンダーバイアスの分析に応用する。
本研究では、モデルが性バイアスに敏感であることを評価するために、3つのデータセットにまたがる性バイアスを媒介する役割について検討する。
私たちの調停分析は ジェンダーバイアスの影響が
(i)ばらばらで、ネットワークのごく一部に集中している。
二 異なる構成要素により増幅又は抑制された相乗効果
(iii)入力から直接流れ、媒介者を通して間接的に流れる効果に分解可能である。
関連論文リスト
- Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z) - Identifying and Adapting Transformer-Components Responsible for Gender
Bias in an English Language Model [1.6343144783668118]
言語モデル(LM)は、性別バイアスを含むトレーニングデータから得られた多くの種類の望ましくないバイアスを示し、増幅する。
本研究では,LM成分と特定の出力の因果関係を同定する3つの手法について検討する。
本手法をGPT-2の小型化と性別バイアスの問題に適用し,検出した成分群を用いてパラメータ効率の良い微調整を行い,バイアス軽減を行う。
論文 参考訳(メタデータ) (2023-10-19T09:39:21Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - What Changed? Investigating Debiasing Methods using Causal Mediation
Analysis [1.3225884668783203]
我々は、ジェンダーに関して言語モデルをデバイアスする内部メカニズムを分解する。
以上の結果から, バイアス指標の異なるデバイアス法の有効性を検証する必要があることが示唆された。
論文 参考訳(メタデータ) (2022-06-01T18:26:24Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Word Embeddings via Causal Inference: Gender Bias Reducing and Semantic
Information Preserving [3.114945725130788]
本稿では、因果推論の枠組みを利用して、ジェンダーバイアスを効果的に除去する手法を提案する。
総括実験により,提案手法は男女の偏りを解消する作業において,最先端の成果を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-12-09T19:57:22Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Analyzing the Source and Target Contributions to Predictions in Neural
Machine Translation [97.22768624862111]
生成プロセスに対するソースとターゲットの相対的コントリビューションを明確に評価するNMTモデルを解析する。
より多くのデータでトレーニングされたモデルは、ソース情報に依存しやすく、よりシャープなトークンコントリビューションを持つ傾向にあります。
論文 参考訳(メタデータ) (2020-10-21T11:37:27Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - InsideBias: Measuring Bias in Deep Networks and Application to Face
Gender Biometrics [73.85525896663371]
この研究は、ディープニューラルネットワークアーキテクチャに基づく学習プロセスのバイアスについて検討する。
一般的なディープニューラルネットワークに基づく2つの性別検出モデルを採用している。
バイアスモデルを検出する新しい手法であるInsideBiasを提案する。
論文 参考訳(メタデータ) (2020-04-14T15:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。