論文の概要: Causal ATE Mitigates Unintended Bias in Controlled Text Generation
- arxiv url: http://arxiv.org/abs/2311.11229v2
- Date: Fri, 16 Feb 2024 13:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:58:24.778382
- Title: Causal ATE Mitigates Unintended Bias in Controlled Text Generation
- Title(参考訳): 制御されたテキスト生成における意図しないバイアスを軽減する因果関係
- Authors: Rahul Madhavan and Kahini Wadhawan
- Abstract要約: 因果平均処理効果(Causal ATE)を用いた言語モデルの属性制御について検討する。
簡単な摂動に基づくCausal ATE法は,この意図しない効果を除去することを示す。
特に、有害性軽減の問題において、有害性軽減の課題は、しばしば除毒後に保護されたグループに現れる不注意な偏見にある。
- 参考スコア(独自算出の注目度): 3.228447124182563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study attribute control in language models through the method of Causal
Average Treatment Effect (Causal ATE). Existing methods for the attribute
control task in Language Models (LMs) check for the co-occurrence of words in a
sentence with the attribute of interest, and control for them. However,
spurious correlation of the words with the attribute in the training dataset,
can cause models to hallucinate the presence of the attribute when presented
with the spurious correlate during inference. We show that the simple
perturbation-based method of Causal ATE removes this unintended effect.
Specifically, we ground it in the problem of toxicity mitigation, where a
significant challenge lies in the inadvertent bias that often emerges towards
protected groups post detoxification. We show that this unintended bias can be
solved by the use of the Causal ATE metric and rigorously prove our claim. We
provide experimental validations for our claims and release our code
(anonymously) here:
https://github.com/causalate-mitigates-bias/causal-ate-mitigates-bias.
- Abstract(参考訳): 因果平均処理効果(Causal ATE)を用いた言語モデルの属性制御について検討した。
言語モデルにおける属性制御タスク(lms)の既存の方法は、興味のある属性を持つ文中の単語の共起をチェックし、それらを制御する。
しかしながら、トレーニングデータセット内の属性と単語のスプリアス相関は、推論中にスプリアス相関が提示された場合に、モデルが属性の存在を幻覚させる可能性がある。
簡単な摂動に基づくCausal ATE法は意図しない効果を除去する。
特に、有害性軽減の問題において、有害性軽減の課題は、しばしば除毒後に保護されたグループに現れる不注意な偏見にある。
この意図しないバイアスは、Causal ATEメトリックを使用して解決できることを示し、我々の主張を厳格に証明する。
クレームの検証実験を行い、コード(匿名)を以下に公開します。
関連論文リスト
- Towards Robust Text Classification: Mitigating Spurious Correlations with Causal Learning [2.7813683000222653]
本稿では,因果関係へのモデル依存を軽減するために,因果相関ロバスト (CCR) を提案する。
CCRは、逆確率重み付け(IPW)損失関数とともに、反ファクト推論に基づく因果的特徴選択法を統合する。
グループラベルを持たないメソッド間でのCCRの最先端性能を示し、場合によってはグループラベルを利用するモデルと競合する。
論文 参考訳(メタデータ) (2024-11-01T21:29:07Z) - PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文 参考訳(メタデータ) (2024-10-11T13:50:50Z) - Take its Essence, Discard its Dross! Debiasing for Toxic Language Detection via Counterfactual Causal Effect [23.628565620485364]
有害言語検出(TLD)における語彙バイアスを軽減するために, CCDF(Counterfactal Causal Debiasing Framework)を提案する。
CCDFは語彙バイアスの「無駄な影響」を保ち、「誤解を招く影響」を排除している
論文 参考訳(メタデータ) (2024-06-03T04:34:30Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。