論文の概要: Assessing the impact of contextual information in hate speech detection
- arxiv url: http://arxiv.org/abs/2210.00465v2
- Date: Wed, 5 Oct 2022 13:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:52:55.274040
- Title: Assessing the impact of contextual information in hate speech detection
- Title(参考訳): ヘイトスピーチ検出における文脈情報の影響評価
- Authors: Juan Manuel P\'erez, Franco Luque, Demian Zayat, Mart\'in Kondratzky,
Agust\'in Moro, Pablo Serrati, Joaqu\'in Zajac, Paula Miguel, Natalia
Debandi, Agust\'in Gravano, Viviana Cotik
- Abstract要約: 我々は,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
- 参考スコア(独自算出の注目度): 0.48369513656026514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, hate speech has gained great relevance in social networks
and other virtual media because of its intensity and its relationship with
violent acts against members of protected groups. Due to the great amount of
content generated by users, great effort has been made in the research and
development of automatic tools to aid the analysis and moderation of this
speech, at least in its most threatening forms. One of the limitations of
current approaches to automatic hate speech detection is the lack of context.
Most studies and resources are performed on data without context; that is,
isolated messages without any type of conversational context or the topic being
discussed. This restricts the available information to define if a post on a
social network is hateful or not. In this work, we provide a novel corpus for
contextualized hate speech detection based on user responses to news posts from
media outlets on Twitter. This corpus was collected in the Rioplatense
dialectal variety of Spanish and focuses on hate speech associated with the
COVID-19 pandemic. Classification experiments using state-of-the-art techniques
show evidence that adding contextual information improves hate speech detection
performance for two proposed tasks (binary and multi-label prediction). We make
our code, models, and corpus available for further research.
- Abstract(参考訳): 近年、ヘイトスピーチは、その強みと保護団体のメンバーに対する暴力行為との関係から、ソーシャルネットワークやその他のバーチャルメディアにおいて大きな関連性が高まっている。
利用者が生成する大量のコンテンツにより、少なくとも最も脅かされる形態において、この音声の分析・モデレーションを支援する自動ツールの研究・開発に多大な努力が払われている。
ヘイトスピーチの自動検出に対する現在のアプローチの制限の1つは、コンテキストの欠如である。
ほとんどの研究とリソースは、コンテキストのないデータ、すなわち、会話的なコンテキストや議論対象のトピックのない独立したメッセージで実行される。
これは、ソーシャルネットワーク上の投稿が憎悪であるかどうかを定義するために利用可能な情報を制限する。
本研究では,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
最先端技術を用いた分類実験は、文脈情報を追加することで、2つのタスク(バイナリとマルチラベルの予測)におけるヘイトスピーチ検出性能が向上することを示す。
コード、モデル、コーパスをさらなる研究のために利用できます。
関連論文リスト
- Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Hate Speech and Counter Speech Detection: Conversational Context Does
Matter [7.333666276087548]
本稿では,オンラインヘイトとカウンタースピーチのアノテーションと検出における会話コンテキストの役割について検討する。
私たちはRedditのコメントに3段階の分類タスク(ヘイトスピーチ、カウンタースピーチ、中立性)のためのコンテキスト対応データセットを作成しました。
論文 参考訳(メタデータ) (2022-06-13T19:05:44Z) - Anti-Asian Hate Speech Detection via Data Augmented Semantic Relation
Inference [4.885207279350052]
本稿では,自然言語推論フレームワークにおけるヘイトスピーチ検出を強化するために,感情ハッシュタグを活用する新しい手法を提案する。
我々は,(1)オンライン投稿と感情ハッシュタグ間の意味的関係推論,(2)これらの投稿に対する感情分類の2つのタスクを同時に実行する新しいフレームワークSRICを設計する。
論文 参考訳(メタデータ) (2022-04-14T15:03:35Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。