論文の概要: HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2012.10289v1
- Date: Fri, 18 Dec 2020 15:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:23:22.941176
- Title: HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection
- Title(参考訳): hatexplain:ヘイトスピーチ検出のためのベンチマークデータセット
- Authors: Binny Mathew, Punyajoy Saha, Seid Muhie Yimam, Chris Biemann, Pawan
Goyal, and Animesh Mukherjee
- Abstract要約: この問題の複数の側面をカバーする最初のベンチマークヘイトスピーチデータセットであるHateXplainを紹介した。
データセット内の各投稿は、3つの異なる視点からアノテートされます。
トレーニングに人間の合理性を利用するモデルは、目標とするコミュニティに対する意図しない偏見を減らすのに優れている。
- 参考スコア(独自算出の注目度): 27.05719607624675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech is a challenging issue plaguing the online social media. While
better models for hate speech detection are continuously being developed, there
is little research on the bias and interpretability aspects of hate speech. In
this paper, we introduce HateXplain, the first benchmark hate speech dataset
covering multiple aspects of the issue. Each post in our dataset is annotated
from three different perspectives: the basic, commonly used 3-class
classification (i.e., hate, offensive or normal), the target community (i.e.,
the community that has been the victim of hate speech/offensive speech in the
post), and the rationales, i.e., the portions of the post on which their
labelling decision (as hate, offensive or normal) is based. We utilize existing
state-of-the-art models and observe that even models that perform very well in
classification do not score high on explainability metrics like model
plausibility and faithfulness. We also observe that models, which utilize the
human rationales for training, perform better in reducing unintended bias
towards target communities. We have made our code and dataset public at
https://github.com/punyajoy/HateXplain
- Abstract(参考訳): ヘイトスピーチは、オンラインソーシャルメディアを悩ませる難しい問題だ。
ヘイトスピーチ検出のためのより良いモデルが継続的に開発されているが、ヘイトスピーチのバイアスと解釈可能性に関する研究はほとんどない。
本稿では,この問題の複数の側面をカバーする最初のベンチマークヘイトスピーチデータセットであるHateXplainを紹介する。
私たちのデータセットの各投稿は、3つの異なる視点から注釈付けされている: 基本的、一般的に使用される3つのクラス分類(ヘイト、攻撃的または正常)、対象のコミュニティ(投稿におけるヘイトスピーチ/攻撃的スピーチの犠牲者であるコミュニティ)、および理論的、すなわち、ラベル付け決定(ヘイト、攻撃的または正常)がベースとなっているポストの一部である。
既存の最先端モデルを用いて,分類に非常に優れたモデルであっても,モデルの信頼性や忠実性といった説明可能性指標を高く評価できないことを観察した。
また,人間的根拠をトレーニングに活用したモデルが,対象コミュニティに対する意図しないバイアスの軽減に有効であることも観察した。
コードとデータセットをhttps://github.com/punyajoy/HateXplainで公開しました。
関連論文リスト
- Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning [29.519687405350304]
本稿では,大規模言語モデル(LLM)の推論能力を利用して,ヘイトスピーチの説明のギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。
SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いた手法がベースラインを一貫して上回ることを示した。
提案手法は,訓練されたモデルの説明品質を高め,未知のデータセットへの一般化を改善する。
論文 参考訳(メタデータ) (2023-11-01T06:09:54Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Unsupervised Domain Adaptation for Hate Speech Detection Using a Data
Augmentation Approach [6.497816402045099]
ヘイトスピーチ検出のためのラベル付きデータを拡張するための教師なし領域適応手法を提案する。
精度/リコール曲線の領域を最大42%改善し,278%改善した。
論文 参考訳(メタデータ) (2021-07-27T15:01:22Z) - An Information Retrieval Approach to Building Datasets for Hate Speech
Detection [3.587367153279349]
「一般的な慣行は、既知の憎しみの言葉を含むツイートを注釈するだけである。」
第二の課題は、ヘイトスピーチの定義が高度に変動し、主観的である傾向があることである。
我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。
論文 参考訳(メタデータ) (2021-06-17T19:25:39Z) - Towards generalisable hate speech detection: a review on obstacles and
solutions [6.531659195805749]
本稿では,既存のヘイトスピーチ検出モデルの一般化について概説する。
主な障害に対処する既存の試みを要約し、ヘイトスピーチ検出における一般化を改善するための今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2021-02-17T17:27:48Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。