論文の概要: Debiasing should be Good and Bad: Measuring the Consistency of Debiasing
Techniques in Language Models
- arxiv url: http://arxiv.org/abs/2305.14307v1
- Date: Tue, 23 May 2023 17:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:46:14.747082
- Title: Debiasing should be Good and Bad: Measuring the Consistency of Debiasing
Techniques in Language Models
- Title(参考訳): 脱バイアスは良いこと、悪いこと:言語モデルにおける脱バイアス手法の一貫性の測定
- Authors: Robert Morabito, Jad Kabbara, Ali Emami
- Abstract要約: デバイアス法は言語モデル(LM)の傾向を緩和し、時々有害なテキストや不適切なテキストを出力する。
本稿では,望ましい結果を得るだけでなく,そのメカニズムや仕様と整合性を持つメソッドを識別する標準化されたプロトコルを提案する。
我々のプロトコルは、見過ごされる可能性のあるデバイアス手法の一般化可能性と解釈可能性に関する重要な洞察を提供する。
- 参考スコア(独自算出の注目度): 9.90597427711145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Debiasing methods that seek to mitigate the tendency of Language Models (LMs)
to occasionally output toxic or inappropriate text have recently gained
traction. In this paper, we propose a standardized protocol which distinguishes
methods that yield not only desirable results, but are also consistent with
their mechanisms and specifications. For example, we ask, given a debiasing
method that is developed to reduce toxicity in LMs, if the definition of
toxicity used by the debiasing method is reversed, would the debiasing results
also be reversed? We used such considerations to devise three criteria for our
new protocol: Specification Polarity, Specification Importance, and Domain
Transferability. As a case study, we apply our protocol to a popular debiasing
method, Self-Debiasing, and compare it to one we propose, called Instructive
Debiasing, and demonstrate that consistency is as important an aspect to
debiasing viability as is simply a desirable result. We show that our protocol
provides essential insights into the generalizability and interpretability of
debiasing methods that may otherwise go overlooked.
- Abstract(参考訳): 有害なテキストや不適切なテキストを出力する言語モデル(lms)の傾向を緩和しようとするデバイアス手法が最近注目を集めている。
本稿では,望ましい結果を得るだけでなく,そのメカニズムや仕様に整合した手法を識別する標準化されたプロトコルを提案する。
例えば、LMの毒性を減らすために開発された脱バイアス法について、脱バイアス法で用いられる毒性の定義が逆転した場合、脱バイアスの結果も逆逆転するだろうか?
私たちは、新しいプロトコルの3つの基準、仕様の極性、仕様の重要度、ドメインの転送可能性について考案しました。
ケーススタディとして、我々のプロトコルを一般的なデバイアス手法であるセルフデバイアスに適用し、インストラクティブデバイアス(Instructive Debiasing)と呼ばれる手法と比較し、一貫性が単に望ましい結果であるように、生存性をデバイアスする上で重要であることを示す。
我々は,本プロトコルがデバイアス手法の一般化可能性と解釈可能性に本質的な洞察を与えることを示す。
関連論文リスト
- ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景および前景バイアスプロトコル上で評価し,新しい最先端技術を設定し,HMDB51上で12%以上のデバイアス性能を向上した。
論文 参考訳(メタデータ) (2025-01-31T20:47:06Z) - Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization [13.773597081543185]
本稿では,組込みのクラスワイドな分散に基づく新しいデバイアス正規化手法を提案する。
提案手法は属性ラベルを必要とせず,属性をターゲットとせず,既存のデバイアス手法の欠点に対処する。
論文 参考訳(メタデータ) (2024-09-29T03:56:50Z) - Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。
実世界の3つの文脈から類似したRUTEd評価法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Balancing Unobserved Confounding with a Few Unbiased Ratings in Debiased
Recommendations [4.960902915238239]
本稿では,既存のデバイアス法に適用可能な理論的に保証されたモデル非依存バランス手法を提案する。
提案手法では, バイアスデータを用いて学習したモデルパラメータを補正し, バイアスデータのバランス係数を適応的に学習することで, バイアスデータを完全に活用する。
論文 参考訳(メタデータ) (2023-04-17T08:56:55Z) - Information-Theoretic Bias Reduction via Causal View of Spurious
Correlation [71.9123886505321]
本稿では,スプリアス相関の因果的解釈による情報理論バイアス測定手法を提案する。
本稿では,バイアス正規化損失を含むアルゴリズムバイアスに対する新しいデバイアスフレームワークを提案する。
提案したバイアス測定とデバイアス法は、多様な現実シナリオで検証される。
論文 参考訳(メタデータ) (2022-01-10T01:19:31Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。