論文の概要: Hate Speech Classifiers Learn Human-Like Social Stereotypes
- arxiv url: http://arxiv.org/abs/2110.14839v1
- Date: Thu, 28 Oct 2021 01:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 15:22:37.087131
- Title: Hate Speech Classifiers Learn Human-Like Social Stereotypes
- Title(参考訳): ヘイトスピーチ分類器は人間に似た社会ステレオタイプを学ぶ
- Authors: Aida Mostafazadeh Davani, Mohammad Atari, Brendan Kennedy, Morteza
Dehghani
- Abstract要約: 社会的ステレオタイプは、異なるグループについての個人の判断に悪影響を及ぼす。
社会的ステレオタイプは、人々が少数民族社会グループに向けられた言語をどのように理解するかにおいて重要な役割を担っている。
- 参考スコア(独自算出の注目度): 4.132204773132937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social stereotypes negatively impact individuals' judgements about different
groups and may have a critical role in how people understand language directed
toward minority social groups. Here, we assess the role of social stereotypes
in the automated detection of hateful language by examining the relation
between individual annotator biases and erroneous classification of texts by
hate speech classifiers. Specifically, in Study 1 we investigate the impact of
novice annotators' stereotypes on their hate-speech-annotation behavior. In
Study 2 we examine the effect of language-embedded stereotypes on expert
annotators' aggregated judgements in a large annotated corpus. Finally, in
Study 3 we demonstrate how language-embedded stereotypes are associated with
systematic prediction errors in a neural-network hate speech classifier. Our
results demonstrate that hate speech classifiers learn human-like biases which
can further perpetuate social inequalities when propagated at scale. This
framework, combining social psychological and computational linguistic methods,
provides insights into additional sources of bias in hate speech moderation,
informing ongoing debates regarding fairness in machine learning.
- Abstract(参考訳): 社会的ステレオタイプは、個人の異なるグループに対する判断に悪影響を及ぼし、人々が少数派社会グループに向けられた言語をどのように理解するかにおいて重要な役割を担っている。
本稿では,憎悪言語の自動検出における社会的ステレオタイプの役割を,ヘイトスピーチ分類器による個々の注釈者バイアスとテキストの誤分類の関係を調べることにより評価する。
特に研究1では,初心者のステレオタイプがヘイト・スパイク・アノテーション行動に与える影響について検討する。
研究2では,言語埋め込みステレオタイプがアノテータの集合判断に及ぼす影響について検討した。
最後に,ニューラルネットワークヘイトスピーチ分類器において,言語埋め込みステレオタイプが系統的予測誤りと関連していることを示す。
その結果,ヘイトスピーチ分類器は人間のようなバイアスを学習し,大規模に伝播すると社会的不平等がさらに持続することが示された。
このフレームワークは、社会心理学と計算言語学の手法を組み合わせることで、ヘイトスピーチのモデレーションにおけるさらなるバイアスの源泉となり、機械学習の公平性に関する議論が進行中である。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Quantifying Stereotypes in Language [6.697298321551588]
データセットをアノテートすることで,言語におけるステレオタイプを定量化する。
我々は、プレトレーニング言語モデル(PLM)を用いて、このデータセットを学習し、文のステレオタイプを予測する。
我々は、ヘイトスピーチ、性差別、感情、不利で有利なグループなど、一般的な社会問題に関するステレオタイプについて議論する。
論文 参考訳(メタデータ) (2024-01-28T01:07:21Z) - Beyond Denouncing Hate: Strategies for Countering Implied Biases and
Stereotypes in Language [18.560379338032558]
我々は、心理学と哲学文学から、ヘイトフル言語の基礎となるステレオタイプ的含意に挑戦するために、6つの心理的にインスパイアされた戦略を構築する。
提案手法では,機械が生成する対音声はより具体的でない戦略を用いるのに対し,人間による対音声はインプリッドステレオタイプに特有な戦略を用いる。
以上の結果から,音声の反音声発生におけるステレオタイプ的含意の考慮の重要性が示唆された。
論文 参考訳(メタデータ) (2023-10-31T21:33:46Z) - Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser
with Prompts [0.6827423171182153]
まず、分類器を用いてヘイトスピーチを検出し、次にプロンプトを通じてバイアスやバイアスの少ない代替品を生成するデバイアス成分を利用する。
提案手法をベンチマークデータセット上で評価し,ヘイトスピーチのコメントによる否定性の低下を観察した。
論文 参考訳(メタデータ) (2023-07-14T13:33:28Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Whose Opinions Matter? Perspective-aware Models to Identify Opinions of
Hate Speech Victims in Abusive Language Detection [6.167830237917662]
異なるコミュニティから生まれる偏極的な意見をモデル化するための詳細な研究を提示する。
この情報に頼ることで、アノテータを同様の視点を共有するグループに分割できると考えています。
本稿では,オンライン虐待を特徴付けるためのサブカテゴリによって注釈付けされた,新しいリソース,多視点英語データセットを提案する。
論文 参考訳(メタデータ) (2021-06-30T08:35:49Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Interpretable Multi-Modal Hate Speech Detection [32.36781061930129]
特定の憎悪表現が作られる社会文化的文脈とともに、テキストの意味を効果的に捉えることができるディープニューラルマルチモーダルモデルを提案する。
我々のモデルは、既存のヘイトスピーチ分類アプローチを上回ることができる。
論文 参考訳(メタデータ) (2021-03-02T10:12:26Z) - Towards Debiasing Sentence Representations [109.70181221796469]
Sent-Debiasはバイアスを取り除くのに有効であり、同時に文レベルの下流タスクのパフォーマンスを保っていることを示す。
我々は、より公平なNLPのための広く採用されている文表現から社会的偏見を識別・除去する今後の研究に刺激を与えることを期待している。
論文 参考訳(メタデータ) (2020-07-16T04:22:30Z) - Multilingual Twitter Corpus and Baselines for Evaluating Demographic
Bias in Hate Speech Recognition [46.57105755981092]
ヘイトスピーチ検出のための多言語Twitterコーパスを公開している。
コーパスは英語、イタリア語、ポーランド語、ポルトガル語、スペイン語の5つの言語をカバーしている。
我々は、クラウドソーシングプラットフォームを用いて、推定された人口統計ラベルを評価した。
論文 参考訳(メタデータ) (2020-02-24T16:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。