論文の概要: MetaHate: A Dataset for Unifying Efforts on Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2401.06526v1
- Date: Fri, 12 Jan 2024 11:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:30:44.214124
- Title: MetaHate: A Dataset for Unifying Efforts on Hate Speech Detection
- Title(参考訳): MetaHate: ヘイトスピーチ検出の取り組みを統合するデータセット
- Authors: Paloma Piot, Patricia Mart\'in-Rodilla, Javier Parapar
- Abstract要約: ヘイトスピーチは、標的となる個人やコミュニティに対して、社会的、心理的、時には身体的脅威を生じさせる。
この現象に対処するための現在の計算言語学的アプローチは、トレーニングのためのラベル付きソーシャルメディアデータセットに依存している。
我々は60以上のデータセットを精査し、その関連するものをMetaHateに選択的に統合しました。
我々の発見は、既存のデータセットのより深い理解に寄与し、より堅牢で適応可能なモデルをトレーニングするための道を開いた。
- 参考スコア(独自算出の注目度): 2.433983268807517
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hate speech represents a pervasive and detrimental form of online discourse,
often manifested through an array of slurs, from hateful tweets to defamatory
posts. As such speech proliferates, it connects people globally and poses
significant social, psychological, and occasionally physical threats to
targeted individuals and communities. Current computational linguistic
approaches for tackling this phenomenon rely on labelled social media datasets
for training. For unifying efforts, our study advances in the critical need for
a comprehensive meta-collection, advocating for an extensive dataset to help
counteract this problem effectively. We scrutinized over 60 datasets,
selectively integrating those pertinent into MetaHate. This paper offers a
detailed examination of existing collections, highlighting their strengths and
limitations. Our findings contribute to a deeper understanding of the existing
datasets, paving the way for training more robust and adaptable models. These
enhanced models are essential for effectively combating the dynamic and complex
nature of hate speech in the digital realm.
- Abstract(参考訳): ヘイトスピーチは広範で有害なオンライン談話であり、憎しみのあるツイートから破壊的な投稿まで、しばしば一連のスラリーを通じて表される。
このような発言が広まるにつれて、世界中の人々をつなげ、ターゲットの個人やコミュニティに対して、社会的、心理的、時として物理的な脅威をもたらす。
この現象に取り組むための現在の計算言語的アプローチは、トレーニングのためのラベル付きソーシャルメディアデータセットに依存している。
本研究は,この課題を効果的に解決するための広範囲なデータセットを提唱し,包括的メタコレクションの必要性を推し進める。
私たちは60以上のデータセットを精査し、MetaHateに統合しました。
本稿では,既存のコレクションを詳細に検証し,その強みと限界を明らかにする。
私たちの発見は、既存のデータセットをより深く理解し、より堅牢で適応可能なモデルをトレーニングする方法を示しています。
これらの強化モデルは、デジタル領域におけるヘイトスピーチの動的かつ複雑な性質と効果的に戦うために不可欠である。
関連論文リスト
- A Target-Aware Analysis of Data Augmentation for Hate Speech Detection [3.858155067958448]
ヘイトスピーチは、ソーシャルネットワークの普及によって引き起こされる主要な脅威の1つだ。
本稿では,既存のデータを生成言語モデルで拡張し,ターゲットの不均衡を低減する可能性を検討する。
起源、宗教、障害などのヘイトカテゴリーでは、トレーニングのための強化データを用いたヘイトスピーチ分類は、拡張ベースラインが存在しない場合、10%以上のF1が向上する。
論文 参考訳(メタデータ) (2024-10-10T15:46:27Z) - Empirical Evaluation of Public HateSpeech Datasets [0.0]
ソーシャルメディアプラットフォームは、ヘイトスピーチ検出のための機械学習アルゴリズムのトレーニングと評価に使用されるデータセットを生成するために広く利用されている。
既存の公開データセットには多くの制限があり、これらのアルゴリズムの効果的な訓練を妨げ、不正確なヘイトスピーチ分類につながる。
この研究は、ヘイトスピーチ検出のためのより正確で信頼性の高い機械学習モデルの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-06-27T11:20:52Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Topological Data Mapping of Online Hate Speech, Misinformation, and
General Mental Health: A Large Language Model Based Study [6.803493330690884]
機械学習と大規模言語モデルの最近の進歩は、そのような分析を可能にした。
本研究では,ソーシャルメディアサイトReddit上で,慎重に選択されたコミュニティから何千もの投稿を収集した。
各種コミュニティにおけるヘイトスピーチ/誤情報の役割を理解するため,埋め込みに基づく各種機械学習分類を行った。
論文 参考訳(メタデータ) (2023-09-22T15:10:36Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z) - Transfer Learning for Hate Speech Detection in Social Media [14.759208309842178]
本稿では、2つの独立したデータセットを協調的に活用するために転送学習手法を用いる。
我々は、構築されたヘイトスピーチ表現の解釈可能な2次元可視化ツールを構築します。
この共同表現は,限られた監督範囲の場合にのみ予測性能が向上することを示す。
論文 参考訳(メタデータ) (2019-06-10T08:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。