論文の概要: Statistical Analysis of Perspective Scores on Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2107.02024v1
- Date: Tue, 22 Jun 2021 17:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-11 11:32:31.508237
- Title: Statistical Analysis of Perspective Scores on Hate Speech Detection
- Title(参考訳): ヘイトスピーチ検出におけるパースペクティブスコアの統計的分析
- Authors: Hadi Mansourifar, Dana Alsagheer, Weidong Shi, Lan Ni, Yan Huang
- Abstract要約: 最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータ上でテストする場合のみ効率的である。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
- 参考スコア(独自算出の注目度): 7.447951461558536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech detection has become a hot topic in recent years due to the
exponential growth of offensive language in social media. It has proven that,
state-of-the-art hate speech classifiers are efficient only when tested on the
data with the same feature distribution as training data. As a consequence,
model architecture plays the second role to improve the current results. In
such a diverse data distribution relying on low level features is the main
cause of deficiency due to natural bias in data. That's why we need to use high
level features to avoid a biased judgement. In this paper, we statistically
analyze the Perspective Scores and their impact on hate speech detection. We
show that, different hate speech datasets are very similar when it comes to
extract their Perspective Scores. Eventually, we prove that, over-sampling the
Perspective Scores of a hate speech dataset can significantly improve the
generalization performance when it comes to be tested on other hate speech
datasets.
- Abstract(参考訳): 近年,ソーシャルメディアにおける攻撃的言語の増加により,ヘイトスピーチの検出がホットな話題となっている。
最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータでテストする場合のみ効率的であることが証明されている。
その結果、モデルアーキテクチャは現在の結果を改善する第2の役割を果たす。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
そのため、偏見のある判断を避けるために、高レベルの機能を使う必要があります。
本稿では,ヘイトスピーチ検出におけるパースペクティブスコアとその影響を統計的に分析する。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
最終的には、ヘイトスピーチデータセットのパースペクティブスコアを過剰にサンプリングすることで、他のヘイトスピーチデータセットでテストする場合の一般化性能が大幅に向上することが証明される。
関連論文リスト
- A Target-Aware Analysis of Data Augmentation for Hate Speech Detection [3.858155067958448]
ヘイトスピーチは、ソーシャルネットワークの普及によって引き起こされる主要な脅威の1つだ。
本稿では,既存のデータを生成言語モデルで拡張し,ターゲットの不均衡を低減する可能性を検討する。
起源、宗教、障害などのヘイトカテゴリーでは、トレーニングのための強化データを用いたヘイトスピーチ分類は、拡張ベースラインが存在しない場合、10%以上のF1が向上する。
論文 参考訳(メタデータ) (2024-10-10T15:46:27Z) - Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Robust Hate Speech Detection in Social Media: A Cross-Dataset Empirical
Evaluation [5.16706940452805]
我々は、さまざまなヘイトスピーチ検出データセット上で、言語モデルを微調整する大規模なクロスデータセット比較を行う。
この分析は、トレーニングデータとして使用するデータセットが、他のデータセットよりも一般化可能であることを示している。
実験により、ヘイトスピーチ検出データセットの組み合わせが、堅牢なヘイトスピーチ検出モデルの開発にどのように貢献するかが示されている。
論文 参考訳(メタデータ) (2023-07-04T12:22:40Z) - ToKen: Task Decomposition and Knowledge Infusion for Few-Shot Hate
Speech Detection [85.68684067031909]
この問題を数ショットの学習タスクとみなし、タスクを「構成」部分に分解することで大きな成果を上げている。
さらに、推論データセット(例えばAtomic 2020)から知識を注入することで、パフォーマンスはさらに向上する。
論文 参考訳(メタデータ) (2022-05-25T05:10:08Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - An Information Retrieval Approach to Building Datasets for Hate Speech
Detection [3.587367153279349]
「一般的な慣行は、既知の憎しみの言葉を含むツイートを注釈するだけである。」
第二の課題は、ヘイトスピーチの定義が高度に変動し、主観的である傾向があることである。
我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。
論文 参考訳(メタデータ) (2021-06-17T19:25:39Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。