論文の概要: What Changed? Investigating Debiasing Methods using Causal Mediation
Analysis
- arxiv url: http://arxiv.org/abs/2206.00701v1
- Date: Wed, 1 Jun 2022 18:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 06:20:05.597184
- Title: What Changed? Investigating Debiasing Methods using Causal Mediation
Analysis
- Title(参考訳): 何が変わった?
因果メディエーション分析を用いた脱バイアス法の検討
- Authors: Sullam Jeoung, Jana Diesner
- Abstract要約: 我々は、ジェンダーに関して言語モデルをデバイアスする内部メカニズムを分解する。
以上の結果から, バイアス指標の異なるデバイアス法の有効性を検証する必要があることが示唆された。
- 参考スコア(独自算出の注目度): 1.3225884668783203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous work has examined how debiasing language models affect downstream
tasks, specifically, how debiasing techniques influence task performance and
whether debiased models also make impartial predictions in downstream tasks or
not. However, what we don't understand well yet is why debiasing methods have
varying impacts on downstream tasks and how debiasing techniques affect
internal components of language models, i.e., neurons, layers, and attentions.
In this paper, we decompose the internal mechanisms of debiasing language
models with respect to gender by applying causal mediation analysis to
understand the influence of debiasing methods on toxicity detection as a
downstream task. Our findings suggest a need to test the effectiveness of
debiasing methods with different bias metrics, and to focus on changes in the
behavior of certain components of the models, e.g.,first two layers of language
models, and attention heads.
- Abstract(参考訳): 従来の研究は、言語モデルのデバイアスが下流タスクにどのように影響するか、特に、デバイアス技術がタスクのパフォーマンスにどのように影響するか、そして、デバイアスされたモデルが下流タスクで公平な予測を行うかどうかを検証してきた。
しかしながら、まだよく分かっていないのは、デバイアス手法が下流タスクに様々な影響を与える理由と、デバイアステクニックが言語モデルの内部コンポーネント、すなわちニューロン、レイヤ、および注意にどのように影響するかである。
本稿では, 因果媒介分析を適用して, 下流課題としての毒性検出に対する脱バイアス法の影響を理解することにより, 脱バイアス言語モデルの内部メカニズムを分解する。
本研究は, バイアス指標の異なるデバイアス化手法の有効性を検証し, モデルの特定の構成要素, 例えば, 第一言語モデルの2つの層, 注意頭などの変化に焦点を合わせることの必要性を示唆する。
関連論文リスト
- Applying Intrinsic Debiasing on Downstream Tasks: Challenges and Considerations for Machine Translation [19.06428714669272]
内在的デバイアスの手法がニューラルマシン翻訳モデルにどのように影響するかを系統的に検証する。
私たちは、デバイアスングテクニックとエンドゴール使用の3つの課題とミスマッチを強調します。
論文 参考訳(メタデータ) (2024-06-02T15:57:29Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Identifying and Adapting Transformer-Components Responsible for Gender
Bias in an English Language Model [1.6343144783668118]
言語モデル(LM)は、性別バイアスを含むトレーニングデータから得られた多くの種類の望ましくないバイアスを示し、増幅する。
本研究では,LM成分と特定の出力の因果関係を同定する3つの手法について検討する。
本手法をGPT-2の小型化と性別バイアスの問題に適用し,検出した成分群を用いてパラメータ効率の良い微調整を行い,バイアス軽減を行う。
論文 参考訳(メタデータ) (2023-10-19T09:39:21Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - Data augmentation and explainability for bias discovery and mitigation
in deep learning [0.0]
この論文は、ディープニューラルネットワークにおけるバイアスの影響を調査し、モデルパフォーマンスへの影響を減らす方法を提案する。
最初の部分は、データやモデルのバイアスやエラーの潜在的な原因を分類し、記述することから始まり、特に機械学習パイプラインのバイアスに焦点を当てている。
次の章では、予測と制御を正当化し、モデルを改善する手段として、説明可能なAIの分類と方法について概説する。
論文 参考訳(メタデータ) (2023-08-18T11:02:27Z) - An Empirical Survey of the Effectiveness of Debiasing Techniques for
Pre-Trained Language Models [4.937002982255573]
最近の研究によると、事前学習された言語モデルは、訓練されたテキストコーパスから社会的偏見を捉えている。
最近提案された5つのデバイアス技術: 対実データ拡張、ドロップアウト、イテレーティブヌルスペース投影、セルフデバイアス、センテンスデバイアス。
3つの異なるバイアスベンチマークを用いて各手法の有効性を定量化するとともに,これらの手法がモデル言語モデリング能力に与える影響を計測する。
論文 参考訳(メタデータ) (2021-10-16T09:40:30Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Causal Mediation Analysis for Interpreting Neural NLP: The Case of
Gender Bias [45.956112337250275]
本稿では, 因果媒介分析の理論に基づく手法を提案し, モデルのどの部分が因果関係に関係しているかを解釈する。
本研究では,事前学習したトランスフォーマー言語モデルにおける性別バイアスの分析に本手法を適用した。
媒介分析の結果,性別バイアス効果は (i) ネットワークのごく一部に集中しており, (ii) 相乗的, 増幅的, あるいは抑圧的であり, (iii) 入力から直接的に, 仲介者を通して間接的に流れる効果に分解可能であることがわかった。
論文 参考訳(メタデータ) (2020-04-26T01:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。