論文の概要: Power of Explanations: Towards automatic debiasing in hate speech
detection
- arxiv url: http://arxiv.org/abs/2209.09975v1
- Date: Wed, 7 Sep 2022 14:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:21:46.773082
- Title: Power of Explanations: Towards automatic debiasing in hate speech
detection
- Title(参考訳): 説明力:ヘイトスピーチ検出における自動脱バイアスに向けて
- Authors: Yi Cai, Arthur Zimek, Gerhard Wunder, Eirini Ntoutsi
- Abstract要約: ヘイトスピーチ検出は、自然言語処理(NLP)の現実世界における一般的なダウンストリームアプリケーションである。
本稿では,潜在的なバイアスを検出するための説明手法を頼りに,自動誤用検知(MiD)を提案する。
- 参考スコア(独自算出の注目度): 19.26084350822197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech detection is a common downstream application of natural language
processing (NLP) in the real world. In spite of the increasing accuracy,
current data-driven approaches could easily learn biases from the imbalanced
data distributions originating from humans. The deployment of biased models
could further enhance the existing social biases. But unlike handling tabular
data, defining and mitigating biases in text classifiers, which deal with
unstructured data, are more challenging. A popular solution for improving
machine learning fairness in NLP is to conduct the debiasing process with a
list of potentially discriminated words given by human annotators. In addition
to suffering from the risks of overlooking the biased terms, exhaustively
identifying bias with human annotators are unsustainable since discrimination
is variable among different datasets and may evolve over time. To this end, we
propose an automatic misuse detector (MiD) relying on an explanation method for
detecting potential bias. And built upon that, an end-to-end debiasing
framework with the proposed staged correction is designed for text classifiers
without any external resources required.
- Abstract(参考訳): ヘイトスピーチ検出は、自然言語処理(NLP)の現実世界における一般的なダウンストリームアプリケーションである。
精度の上昇にもかかわらず、現在のデータ駆動アプローチは、人間から派生した不均衡なデータ分布からバイアスを容易に学習できる。
バイアスモデルの導入は、既存の社会的バイアスをさらに強化する可能性がある。
しかし、表データの扱いとは異なり、非構造化データを扱うテキスト分類器におけるバイアスの定義と緩和はより難しい。
nlpで機械学習の公平性を改善するための一般的な解決策は、人間の注釈者によって与えられた潜在的に識別された単語のリストでデバイアス処理を行うことである。
バイアス項を見渡すリスクに苦しむだけでなく、異なるデータセット間で識別が可変であり、時間とともに進化する可能性があるため、人間のアノテータによる偏見の徹底的な識別は持続不可能である。
そこで本研究では,潜在的なバイアスを検出するための説明法に基づく自動誤用検知(MiD)を提案する。
それに基づいて、提案した段階補正によるエンドツーエンドのデバイアスフレームワークは、外部リソースを必要としないテキスト分類器用に設計されている。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - HateDebias: On the Diversity and Variability of Hate Speech Debiasing [14.225997610785354]
我々はHateDebiasという名のベンチマークを提案し、連続的かつ変化する環境下でのヘイトスピーチ検出のモデル能力を分析する。
具体的には、バイアスの多様性を満たすために、さまざまな種類のバイアスを持つ既存のヘイトスピーチ検出データセットを収集します。
我々は,HateDebiasの性能を1種類のバイアスで学習したモデルの検出精度を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:18:02Z) - Language-guided Detection and Mitigation of Unknown Dataset Bias [23.299264313976213]
本稿では,キャプションの部分的発生に基づく事前知識のないキーワードとして潜在的なバイアスを識別する枠組みを提案する。
我々のフレームワークは、事前知識のない既存のメソッドよりも優れているだけでなく、事前知識を前提としたメソッドにさえ匹敵する。
論文 参考訳(メタデータ) (2024-06-05T03:11:33Z) - NBIAS: A Natural Language Processing Framework for Bias Identification
in Text [9.486702261615166]
テキストデータのバイアスは、データが使用されると歪んだ解釈や結果につながる可能性がある。
偏りのあるデータに基づいて訓練されたアルゴリズムは、あるグループに不公平に影響を及ぼす決定を下すかもしれない。
我々は,データ,コーパス構築,モデル開発,評価レイヤの4つの主要レイヤからなる包括的フレームワーク NBIAS を開発した。
論文 参考訳(メタデータ) (2023-08-03T10:48:30Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。