論文の概要: Cross-Platform Hate Speech Detection with Weakly Supervised Causal Disentanglement
- arxiv url: http://arxiv.org/abs/2404.11036v1
- Date: Wed, 17 Apr 2024 03:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:24:20.890110
- Title: Cross-Platform Hate Speech Detection with Weakly Supervised Causal Disentanglement
- Title(参考訳): 弱教師付き因果解離を用いたクロスプラットフォームHate音声検出
- Authors: Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, Huan Liu,
- Abstract要約: 本研究は、弱教師付き因果解離の新しい枠組みであるHATE WATCHを提示する。
明示的なターゲットラベリングの必要性を回避し、入力された特徴をヘイト(ヘイト)の不変表現に効果的に切り離す。
HATE WATCHは、高性能なプラットフォーム間ヘイトスピーチ検出における新しい手法として、ターゲットラベル付きプラットフォーム2と非位置対応プラットフォーム2の実証検証を行った。
- 参考スコア(独自算出の注目度): 14.437386966111719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content moderation faces a challenging task as social media's ability to spread hate speech contrasts with its role in promoting global connectivity. With rapidly evolving slang and hate speech, the adaptability of conventional deep learning to the fluid landscape of online dialogue remains limited. In response, causality inspired disentanglement has shown promise by segregating platform specific peculiarities from universal hate indicators. However, its dependency on available ground truth target labels for discerning these nuances faces practical hurdles with the incessant evolution of platforms and the mutable nature of hate speech. Using confidence based reweighting and contrastive regularization, this study presents HATE WATCH, a novel framework of weakly supervised causal disentanglement that circumvents the need for explicit target labeling and effectively disentangles input features into invariant representations of hate. Empirical validation across platforms two with target labels and two without positions HATE WATCH as a novel method in cross platform hate speech detection with superior performance. HATE WATCH advances scalable content moderation techniques towards developing safer online communities.
- Abstract(参考訳): ソーシャルメディアがヘイトスピーチを広める能力は、グローバルな接続を促進する役割とは対照的に、コンテンツモデレーションは難しい課題に直面している。
スラングとヘイトスピーチの急速な発展に伴い、オンライン対話の流動的な景観に対する従来のディープラーニングの適応性は依然として限られている。
これに対し、因果性にインスパイアされた絡み合いは、プラットフォーム固有の特徴を普遍的ヘイト指標から分離することで、約束を示す。
しかし、これらのニュアンスを識別するために利用できる真実のターゲットラベルに依存しているため、プラットフォームが不必要に進化し、ヘイトスピーチが変化するという現実的なハードルに直面している。
本研究は、信頼に基づく再重み付けとコントラストレギュラー化を用いて、明確なターゲットラベリングの必要性を回避し、入力特徴を憎悪の不変表現に効果的に切り離す、弱教師付き因果不絡みの新しい枠組みであるHATE WATCHを提示する。
HATE WATCHは、高性能なプラットフォーム間ヘイトスピーチ検出における新しい手法として、ターゲットラベル付きプラットフォーム2と非位置対応プラットフォーム2の実証検証を行った。
HATE WATCHは、より安全なオンラインコミュニティの開発に向けて、スケーラブルなコンテンツモデレーション手法を推進している。
関連論文リスト
- Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Causality Guided Disentanglement for Cross-Platform Hate Speech
Detection [15.489092194564149]
ソーシャルメディアプラットフォームはオープンな言論を促進する価値があるにもかかわらず、しばしば有害なコンテンツを広めるために利用される。
本研究では,あるプラットフォームのデータに基づいて学習し,複数のプラットフォームに一般化可能な,クロスプラットフォームのヘイトスピーチ検出モデルを提案する。
4つのプラットフォームにわたる実験は、一般化されたヘイトスピーチを検出する既存の最先端手法と比較して、モデルの有効性が向上していることを強調した。
論文 参考訳(メタデータ) (2023-08-03T23:39:03Z) - Hate Speech Detection via Dual Contrastive Learning [25.878271501274245]
本稿では,ヘイトスピーチ検出のための新しい双方向コントラスト学習フレームワークを提案する。
本フレームワークは,自己教師型学習と教師型学習の損失を協調的に最適化し,スパンレベルの情報を取得する。
公開可能な2つの英語データセットの実験を行い、実験結果から、提案モデルが最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T13:23:36Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Anti-Asian Hate Speech Detection via Data Augmented Semantic Relation
Inference [4.885207279350052]
本稿では,自然言語推論フレームワークにおけるヘイトスピーチ検出を強化するために,感情ハッシュタグを活用する新しい手法を提案する。
我々は,(1)オンライン投稿と感情ハッシュタグ間の意味的関係推論,(2)これらの投稿に対する感情分類の2つのタスクを同時に実行する新しいフレームワークSRICを設計する。
論文 参考訳(メタデータ) (2022-04-14T15:03:35Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z) - Leveraging cross-platform data to improve automated hate speech
detection [0.0]
ヘイトスピーチ検出のための既存のアプローチは、単一のソーシャルメディアプラットフォームを独立して重視している。
本稿では,異なるプラットフォームからの複数のデータセットと分類モデルを活用するヘイトスピーチを検出するための,クロスプラットフォームアプローチを提案する。
このアプローチが既存のモデルより優れていることを実証し、新しいソーシャルメディアプラットフォームからのメッセージでテストすると、優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2021-02-09T15:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。