論文の概要: Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model
- arxiv url: http://arxiv.org/abs/2008.06460v2
- Date: Fri, 28 Aug 2020 10:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:02:43.098435
- Title: Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model
- Title(参考訳): BERTモデルに基づくソーシャルメディアにおけるヘイトスピーチ検出とRacial Bias緩和
- Authors: Marzieh Mozafari, Reza Farahbakhsh, Noel Crespi
- Abstract要約: 本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
- 参考スコア(独自算出の注目度): 1.9336815376402716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disparate biases associated with datasets and trained classifiers in hateful
and abusive content identification tasks have raised many concerns recently.
Although the problem of biased datasets on abusive language detection has been
addressed more frequently, biases arising from trained classifiers have not yet
been a matter of concern. Here, we first introduce a transfer learning approach
for hate speech detection based on an existing pre-trained language model
called BERT and evaluate the proposed model on two publicly available datasets
annotated for racism, sexism, hate or offensive content on Twitter. Next, we
introduce a bias alleviation mechanism in hate speech detection task to
mitigate the effect of bias in training set during the fine-tuning of our
pre-trained BERT-based model. Toward that end, we use an existing
regularization method to reweight input samples, thereby decreasing the effects
of high correlated training set' s n-grams with class labels, and then
fine-tune our pre-trained BERT-based model with the new re-weighted samples. To
evaluate our bias alleviation mechanism, we employ a cross-domain approach in
which we use the trained classifiers on the aforementioned datasets to predict
the labels of two new datasets from Twitter, AAE-aligned and White-aligned
groups, which indicate tweets written in African-American English (AAE) and
Standard American English (SAE) respectively. The results show the existence of
systematic racial bias in trained classifiers as they tend to assign tweets
written in AAE from AAE-aligned group to negative classes such as racism,
sexism, hate, and offensive more often than tweets written in SAE from
White-aligned. However, the racial bias in our classifiers reduces
significantly after our bias alleviation mechanism is incorporated. This work
could institute the first step towards debiasing hate speech and abusive
language detection systems.
- Abstract(参考訳): ヘイトフルで虐待的なコンテンツ識別タスクにおけるデータセットと訓練された分類器に関連するさまざまなバイアスは、最近多くの懸念を引き起こしている。
乱用言語検出における偏りのあるデータセットの問題は、より頻繁に対処されているが、訓練された分類器から生じる偏りは、まだ問題になっていない。
ここではまず,既存の事前学習された言語モデルbertに基づくヘイトスピーチ検出のためのトランスファー学習アプローチを紹介し,twitter上で人種差別,性差別,ヘイト,攻撃的コンテンツに注釈を付した2つの公開データセット上で提案モデルを評価する。
次に,ヘイトスピーチ検出タスクにおいて,事前学習したbertベースモデルの微調整時の学習セットにおけるバイアスの影響を軽減するバイアス緩和機構を導入する。
その目的のために,既存の正規化手法を用いてサンプルの再重み付けを行い,クラスラベルと高相関のトレーニングセットsn-gramの効果を低減し,事前学習したBERTモデルに新たな重み付けサンプルを付加する。
バイアス緩和メカニズムを評価するために、上記のデータセット上でトレーニングされた分類器を使用して、それぞれアフリカ系アメリカ人英語(AAE)と標準アメリカ英語(SAE)で書かれたツイートを示すTwitter、AAE、ホワイトアライングループの2つの新しいデータセットのラベルを予測する。
その結果、訓練された分類者の体系的な人種的偏見の存在が示され、AAEで書かれたツイートは、白人で書かれたツイートよりも、人種差別、セクシズム、憎悪、攻撃的なクラスに割り当てられる傾向がある。
しかし,分類器の人種バイアスは,偏見緩和機構が組み込まれた後に著しく減少する。
この研究は、ヘイトスピーチと乱用言語検出システムをデバイアスする第一歩を踏み出す可能性がある。
関連論文リスト
- A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers [0.0]
バイアス検出のためにテンプレートや特定のデータセットに頼るのではなく、ターゲットドメインデータに小さな摂動を持つ対実例を作成します。
感情,感情,ヘイトスピーチなどの主観的分析に広く用いられている分類器について,本研究の結果は,ある国で話されている言語に関する肯定的なバイアスを示す。
論文 参考訳(メタデータ) (2024-07-01T22:17:17Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Detecting Unintended Social Bias in Toxic Language Datasets [32.724030288421474]
本稿では,既存のKaggleコンペティションのデータセットであるJigsaw Unintended Bias in Toxicity Classificationから算出した新しいデータセットであるToxicBiasを紹介する。
データセットには、5つの異なるバイアスカテゴリ、viz.、性、人種/民族性、宗教、政治的、LGBTQに注釈付けされたインスタンスが含まれている。
得られたデータセットを用いてトランスフォーマーベースモデルをトレーニングし、バイアス識別、ターゲット生成、バイアス含意に関するベースライン性能を報告する。
論文 参考訳(メタデータ) (2022-10-21T06:50:12Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Mitigating Racial Biases in Toxic Language Detection with an
Equity-Based Ensemble Framework [9.84413545378636]
最近の研究では、アフリカ系アメリカ人の英語を書いているユーザーに対する人種的偏見が、人気のある有毒な言語データセットに存在することが示されている。
これらのバイアスの発生源をよりよく理解するために、さらに説明的公正度指標を提案する。
提案手法は,モデルがこれらのデータセットから学習する人種的バイアスを大幅に低減することを示す。
論文 参考訳(メタデータ) (2021-09-27T15:54:05Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Demoting Racial Bias in Hate Speech Detection [39.376886409461775]
現在のヘイトスピーチデータセットには、アノテーターの毒性に対する認識とアフリカ系アメリカ人英語(AAE)の信号との間に相関がある。
本稿では,このバイアスを軽減するために,敵対的訓練を用いて,有害な文章の検出を学習するヘイトスピーチ分類器を導入する。
ヘイトスピーチデータセットとAEデータセットの実験結果から,本手法はヘイトスピーチ分類の性能を最小限に抑えつつ,AAEテキストの偽陽性率を大幅に低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-05-25T17:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。