論文の概要: Debiasing should be Good and Bad: Measuring the Consistency of Debiasing
Techniques in Language Models
- arxiv url: http://arxiv.org/abs/2305.14307v1
- Date: Tue, 23 May 2023 17:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:46:14.747082
- Title: Debiasing should be Good and Bad: Measuring the Consistency of Debiasing
Techniques in Language Models
- Title(参考訳): 脱バイアスは良いこと、悪いこと:言語モデルにおける脱バイアス手法の一貫性の測定
- Authors: Robert Morabito, Jad Kabbara, Ali Emami
- Abstract要約: デバイアス法は言語モデル(LM)の傾向を緩和し、時々有害なテキストや不適切なテキストを出力する。
本稿では,望ましい結果を得るだけでなく,そのメカニズムや仕様と整合性を持つメソッドを識別する標準化されたプロトコルを提案する。
我々のプロトコルは、見過ごされる可能性のあるデバイアス手法の一般化可能性と解釈可能性に関する重要な洞察を提供する。
- 参考スコア(独自算出の注目度): 9.90597427711145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Debiasing methods that seek to mitigate the tendency of Language Models (LMs)
to occasionally output toxic or inappropriate text have recently gained
traction. In this paper, we propose a standardized protocol which distinguishes
methods that yield not only desirable results, but are also consistent with
their mechanisms and specifications. For example, we ask, given a debiasing
method that is developed to reduce toxicity in LMs, if the definition of
toxicity used by the debiasing method is reversed, would the debiasing results
also be reversed? We used such considerations to devise three criteria for our
new protocol: Specification Polarity, Specification Importance, and Domain
Transferability. As a case study, we apply our protocol to a popular debiasing
method, Self-Debiasing, and compare it to one we propose, called Instructive
Debiasing, and demonstrate that consistency is as important an aspect to
debiasing viability as is simply a desirable result. We show that our protocol
provides essential insights into the generalizability and interpretability of
debiasing methods that may otherwise go overlooked.
- Abstract(参考訳): 有害なテキストや不適切なテキストを出力する言語モデル(lms)の傾向を緩和しようとするデバイアス手法が最近注目を集めている。
本稿では,望ましい結果を得るだけでなく,そのメカニズムや仕様に整合した手法を識別する標準化されたプロトコルを提案する。
例えば、LMの毒性を減らすために開発された脱バイアス法について、脱バイアス法で用いられる毒性の定義が逆転した場合、脱バイアスの結果も逆逆転するだろうか?
私たちは、新しいプロトコルの3つの基準、仕様の極性、仕様の重要度、ドメインの転送可能性について考案しました。
ケーススタディとして、我々のプロトコルを一般的なデバイアス手法であるセルフデバイアスに適用し、インストラクティブデバイアス(Instructive Debiasing)と呼ばれる手法と比較し、一貫性が単に望ましい結果であるように、生存性をデバイアスする上で重要であることを示す。
我々は,本プロトコルがデバイアス手法の一般化可能性と解釈可能性に本質的な洞察を与えることを示す。
関連論文リスト
- Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization [13.773597081543185]
本稿では,組込みのクラスワイドな分散に基づく新しいデバイアス正規化手法を提案する。
提案手法は属性ラベルを必要とせず,属性をターゲットとせず,既存のデバイアス手法の欠点に対処する。
論文 参考訳(メタデータ) (2024-09-29T03:56:50Z) - Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Balancing Unobserved Confounding with a Few Unbiased Ratings in Debiased
Recommendations [4.960902915238239]
本稿では,既存のデバイアス法に適用可能な理論的に保証されたモデル非依存バランス手法を提案する。
提案手法では, バイアスデータを用いて学習したモデルパラメータを補正し, バイアスデータのバランス係数を適応的に学習することで, バイアスデータを完全に活用する。
論文 参考訳(メタデータ) (2023-04-17T08:56:55Z) - Information-Theoretic Bias Reduction via Causal View of Spurious
Correlation [71.9123886505321]
本稿では,スプリアス相関の因果的解釈による情報理論バイアス測定手法を提案する。
本稿では,バイアス正規化損失を含むアルゴリズムバイアスに対する新しいデバイアスフレームワークを提案する。
提案したバイアス測定とデバイアス法は、多様な現実シナリオで検証される。
論文 参考訳(メタデータ) (2022-01-10T01:19:31Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。