論文の概要: Demographics Should Not Be the Reason of Toxicity: Mitigating
Discrimination in Text Classifications with Instance Weighting
- arxiv url: http://arxiv.org/abs/2004.14088v3
- Date: Thu, 20 Aug 2020 14:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 10:07:20.663651
- Title: Demographics Should Not Be the Reason of Toxicity: Mitigating
Discrimination in Text Classifications with Instance Weighting
- Title(参考訳): 人口統計学は毒性の原因ではない--例重み付けによるテキスト分類における識別の緩和
- Authors: Guanhua Zhang, Bing Bai, Junqi Zhang, Kun Bai, Conghui Zhu and Tiejun
Zhao
- Abstract要約: テキスト分類データセットにおける意図しないバイアスを,非識別分布から識別分布への選択バイアスの一種として定式化する。
本手法は, モデル一般化能力を著しく損なうことなく, 意図しないバイアスの影響を効果的に緩和することができる。
- 参考スコア(独自算出の注目度): 36.87473475196733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent proliferation of the use of text classifications, researchers
have found that there are certain unintended biases in text classification
datasets. For example, texts containing some demographic identity-terms (e.g.,
"gay", "black") are more likely to be abusive in existing abusive language
detection datasets. As a result, models trained with these datasets may
consider sentences like "She makes me happy to be gay" as abusive simply
because of the word "gay." In this paper, we formalize the unintended biases in
text classification datasets as a kind of selection bias from the
non-discrimination distribution to the discrimination distribution. Based on
this formalization, we further propose a model-agnostic debiasing training
framework by recovering the non-discrimination distribution using instance
weighting, which does not require any extra resources or annotations apart from
a pre-defined set of demographic identity-terms. Experiments demonstrate that
our method can effectively alleviate the impacts of the unintended biases
without significantly hurting models' generalization ability.
- Abstract(参考訳): 近年のテキスト分類の普及に伴い、研究者はテキスト分類データセットに意図しない偏りがあることを発見した。
例えば、一部の人口統計学的アイデンティティ項(例えば「ゲイ」や「ブラック」)を含むテキストは、既存の乱用言語検出データセットで乱用されやすい。
結果として、これらのデータセットで訓練されたモデルは、単に「ゲイ」という言葉のために、"she makes me happy to be gay"のような文を乱用していると考える可能性がある。
本稿では,テキスト分類データセットにおける意図しないバイアスを,非識別分布から識別分布への選択バイアスの一種として定式化する。
さらに,この形式化に基づき,非差別分布をインスタンス重み付けを用いて回復し,事前定義された人口統計学的アイデンティティのセットとは別に,追加のリソースやアノテーションを必要としないモデル非依存デバイアストレーニングフレームワークを提案する。
実験により, 本手法はモデルの一般化能力を著しく損なうことなく, 意図しないバイアスの影響を効果的に軽減できることを示した。
関連論文リスト
- Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization [13.773597081543185]
本稿では,組込みのクラスワイドな分散に基づく新しいデバイアス正規化手法を提案する。
提案手法は属性ラベルを必要とせず,属性をターゲットとせず,既存のデバイアス手法の欠点に対処する。
論文 参考訳(メタデータ) (2024-09-29T03:56:50Z) - Language-guided Detection and Mitigation of Unknown Dataset Bias [23.299264313976213]
本稿では,キャプションの部分的発生に基づく事前知識のないキーワードとして潜在的なバイアスを識別する枠組みを提案する。
我々のフレームワークは、事前知識のない既存のメソッドよりも優れているだけでなく、事前知識を前提としたメソッドにさえ匹敵する。
論文 参考訳(メタデータ) (2024-06-05T03:11:33Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Deep Learning on a Healthy Data Diet: Finding Important Examples for
Fairness [15.210232622716129]
データ駆動予測ソリューションは、主に商用アプリケーションで使われているが、バイアスやステレオタイプに悩まされる傾向がある。
データ拡張は、トレーニングデータセットに反実例を追加することで、性別バイアスを低減する。
拡張データセットのいくつかの例は、公平性には重要でも有害でもないことを示します。
論文 参考訳(メタデータ) (2022-11-20T22:42:30Z) - Detecting Unintended Social Bias in Toxic Language Datasets [32.724030288421474]
本稿では,既存のKaggleコンペティションのデータセットであるJigsaw Unintended Bias in Toxicity Classificationから算出した新しいデータセットであるToxicBiasを紹介する。
データセットには、5つの異なるバイアスカテゴリ、viz.、性、人種/民族性、宗教、政治的、LGBTQに注釈付けされたインスタンスが含まれている。
得られたデータセットを用いてトランスフォーマーベースモデルをトレーニングし、バイアス識別、ターゲット生成、バイアス含意に関するベースライン性能を報告する。
論文 参考訳(メタデータ) (2022-10-21T06:50:12Z) - Statistical discrimination in learning agents [64.78141757063142]
統計的差別は、訓練人口のバイアスとエージェントアーキテクチャの両方の関数としてエージェントポリシーに現れる。
我々は、リカレントニューラルネットワークを使用するエージェントによる差別の低減と、トレーニング環境のバイアスの低減が示される。
論文 参考訳(メタデータ) (2021-10-21T18:28:57Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification [36.361778457307636]
ディープテキスト分類モデルは、特定の人口統計グループの著者によって書かれたテキストのバイアス結果を生成することができます。
本論文では,異なる人口集団の異なるテキスト分類タスクに暗黙のバイアスが存在することを示す。
そして、暗黙のバイアスの知識を深めるために、学習に基づく解釈方法を構築します。
論文 参考訳(メタデータ) (2021-05-06T16:17:38Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。