論文の概要: Robust Hate Speech Detection in Social Media: A Cross-Dataset Empirical
Evaluation
- arxiv url: http://arxiv.org/abs/2307.01680v1
- Date: Tue, 4 Jul 2023 12:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 17:09:15.755951
- Title: Robust Hate Speech Detection in Social Media: A Cross-Dataset Empirical
Evaluation
- Title(参考訳): ソーシャルメディアにおけるロバストヘイト音声検出 : クロスデータセット実験による評価
- Authors: Dimosthenis Antypas and Jose Camacho-Collados
- Abstract要約: 我々は、さまざまなヘイトスピーチ検出データセット上で、言語モデルを微調整する大規模なクロスデータセット比較を行う。
この分析は、トレーニングデータとして使用するデータセットが、他のデータセットよりも一般化可能であることを示している。
実験により、ヘイトスピーチ検出データセットの組み合わせが、堅牢なヘイトスピーチ検出モデルの開発にどのように貢献するかが示されている。
- 参考スコア(独自算出の注目度): 5.16706940452805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automatic detection of hate speech online is an active research area in
NLP. Most of the studies to date are based on social media datasets that
contribute to the creation of hate speech detection models trained on them.
However, data creation processes contain their own biases, and models
inherently learn from these dataset-specific biases. In this paper, we perform
a large-scale cross-dataset comparison where we fine-tune language models on
different hate speech detection datasets. This analysis shows how some datasets
are more generalisable than others when used as training data. Crucially, our
experiments show how combining hate speech detection datasets can contribute to
the development of robust hate speech detection models. This robustness holds
even when controlling by data size and compared with the best individual
datasets.
- Abstract(参考訳): オンラインでのヘイトスピーチの自動検出は、NLPの活発な研究領域である。
これまでの研究のほとんどはソーシャルメディアのデータセットに基づいており、それらに基づいて訓練されたヘイトスピーチ検出モデルの作成に貢献している。
しかし、データ生成プロセスには独自のバイアスが含まれており、モデルはこれらのデータセット固有のバイアスから本質的に学習する。
本稿では,異なるヘイトスピーチ検出データセット上で言語モデルを微調整する大規模クロスデータセット比較を行う。
この分析は、トレーニングデータとして使用するデータセットが、他のデータセットよりも一般化可能であることを示している。
本研究は,ヘイトスピーチ検出データセットを組み合わせることで,ロバストなヘイトスピーチ検出モデルの開発にどのように寄与するかを示す。
このロバスト性は、データサイズで制御し、最高のデータセットと比較しても保持される。
関連論文リスト
- Empirical Evaluation of Public HateSpeech Datasets [0.0]
ソーシャルメディアプラットフォームは、ヘイトスピーチ検出のための機械学習アルゴリズムのトレーニングと評価に使用されるデータセットを生成するために広く利用されている。
既存の公開データセットには多くの制限があり、これらのアルゴリズムの効果的な訓練を妨げ、不正確なヘイトスピーチ分類につながる。
この研究は、ヘイトスピーチ検出のためのより正確で信頼性の高い機械学習モデルの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-06-27T11:20:52Z) - Hate Speech Detection in Limited Data Contexts using Synthetic Data
Generation [1.9506923346234724]
本稿では,限られたデータコンテキストにおいて,オンラインヘイトスピーチ検出のためのデータ不足の問題に対処するデータ拡張手法を提案する。
対象言語におけるヘイトスピーチデータの新しい例を合成する3つの方法を提案する。
以上の結果から, 合成データを用いたモデルでは, 対象領域で利用可能なサンプルに対してのみ学習したモデルが比較可能であり, 性能が良好である場合も見いだされた。
論文 参考訳(メタデータ) (2023-10-04T15:10:06Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Detect Hate Speech in Unseen Domains using Multi-Task Learning: A Case
Study of Political Public Figures [7.52579126252489]
複数のヘイトスピーチデータセットを同時に学習するマルチタスク学習パイプラインを提案する。
列車-テスト分割における一般化誤差を調べる際には強い結果が得られ、以前に見つからなかったデータセットで予測する場合には大幅に改善される。
PubFigsと呼ばれる新しいデータセットも収集し、アメリカ公共政治図の問題点に焦点をあてた。
論文 参考訳(メタデータ) (2022-08-22T21:13:38Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Statistical Analysis of Perspective Scores on Hate Speech Detection [7.447951461558536]
最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータ上でテストする場合のみ効率的である。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
論文 参考訳(メタデータ) (2021-06-22T17:17:35Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。