論文の概要: Causality Guided Representation Learning for Cross-Style Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2510.07707v1
- Date: Thu, 09 Oct 2025 02:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.820003
- Title: Causality Guided Representation Learning for Cross-Style Hate Speech Detection
- Title(参考訳): クロススタイルヘイト音声検出のための因果性指導型表現学習
- Authors: Chengshuai Zhao, Shu Wan, Paras Sheth, Karan Patwa, K. Selçuk Candan, Huan Liu,
- Abstract要約: オンラインヘイトスピーチの普及は、ウェブの調和に重大な脅威をもたらす。
既存のヘイトスピーチ検出モデルは、様々なスタイルのバリエーションで効果的に一般化できない。
本稿では,ヘイトスピーチを解釈可能な潜在要因に分解する因果表現学習フレームワークCADETを提案する。
- 参考スコア(独自算出の注目度): 11.028139269410685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of online hate speech poses a significant threat to the harmony of the web. While explicit hate is easily recognized through overt slurs, implicit hate speech is often conveyed through sarcasm, irony, stereotypes, or coded language -- making it harder to detect. Existing hate speech detection models, which predominantly rely on surface-level linguistic cues, fail to generalize effectively across diverse stylistic variations. Moreover, hate speech spread on different platforms often targets distinct groups and adopts unique styles, potentially inducing spurious correlations between them and labels, further challenging current detection approaches. Motivated by these observations, we hypothesize that the generation of hate speech can be modeled as a causal graph involving key factors: contextual environment, creator motivation, target, and style. Guided by this graph, we propose CADET, a causal representation learning framework that disentangles hate speech into interpretable latent factors and then controls confounders, thereby isolating genuine hate intent from superficial linguistic cues. Furthermore, CADET allows counterfactual reasoning by intervening on style within the latent space, naturally guiding the model to robustly identify hate speech in varying forms. CADET demonstrates superior performance in comprehensive experiments, highlighting the potential of causal priors in advancing generalizable hate speech detection.
- Abstract(参考訳): オンラインヘイトスピーチの普及は、ウェブの調和に重大な脅威をもたらす。
露骨な憎悪は、過度な嫌悪によって容易に認識されるが、暗黙の憎悪の言葉は、皮肉、皮肉、ステレオタイプ、あるいはコード化された言語を通じてしばしば伝えられるため、検出が困難である。
既存のヘイトスピーチ検出モデルは、表面レベルの言語的手がかりに大きく依存しているが、様々なスタイルのバリエーションで効果的に一般化できない。
さらに、異なるプラットフォームに広がるヘイトスピーチは、しばしば異なるグループをターゲットにし、ユニークなスタイルを採用する。
これらの観測から, ヘイトスピーチの生成は, 文脈環境, 創造動機, ターゲット, スタイルといった重要な要因を含む因果グラフとしてモデル化できると仮定した。
このグラフによって導かれたCADETは、ヘイトスピーチを解釈可能な潜在要因に分解し、共同創設者を制御し、表面言語的手がかりから真のヘイト意図を分離する因果表現学習フレームワークである。
さらにCADETは、潜在空間内のスタイルに介入し、モデルに様々な形態のヘイトスピーチを堅牢に識別させることにより、反ファクト推論を可能にする。
CADETは包括的実験において優れた性能を示し、一般化可能なヘイトスピーチ検出の進歩における因果的先行の可能性を強調している。
関連論文リスト
- Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study [59.30098850050971]
この研究は、8つの非英語言語にわたるLLMのプロンプトに基づく検出を評価する。
実世界の評価セットのほとんどにおいて、ゼロショットと少数ショットが微調整エンコーダモデルに遅れを生じさせる一方で、ヘイトスピーチ検出のための関数的テストのより優れた一般化を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-09T16:00:01Z) - Selective Demonstration Retrieval for Improved Implicit Hate Speech Detection [4.438698005789677]
ヘイトスピーチ検出は、自然言語処理において重要な研究領域であり、オンラインコミュニティの安全確保に不可欠である。
明示的なヘイトスピーチとは異なり、暗黙の表現は文脈、文化的な微妙さ、隠れた偏見に依存することが多い。
大規模言語モデルは、しばしば有害な言語に対する感受性を高め、脆弱なグループへの参照を示し、誤分類につながる可能性がある。
モデル微調整を必要とせず,文脈内学習を利用した新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-16T13:43:23Z) - Dealing with Annotator Disagreement in Hate Speech Classification [0.0]
本稿では,アノテータの不一致に対処するための戦略について検討する。
トルコのツイートにおけるヘイトスピーチ分類の文脈において、複数のアノテーションを集約するための様々な自動アプローチを評価する。
本研究は,問題の重要性を強調し,オンライン談話におけるヘイトスピーチの検出と理解に最先端のベンチマーク結果を提供する。
論文 参考訳(メタデータ) (2025-02-12T10:19:50Z) - Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context Learning [4.136573141724715]
インターネット上でのヘイトスピーチは、デジタルプラットフォームの安全性にとって大きな課題となる。
近年の研究では、特定のモダリティに合わせた検出モデルが開発されている。
本研究では,大規模言語モデルを用いたテキスト内学習を多用した広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-10-08T01:27:12Z) - Hate Speech Detection via Dual Contrastive Learning [25.878271501274245]
本稿では,ヘイトスピーチ検出のための新しい双方向コントラスト学習フレームワークを提案する。
本フレームワークは,自己教師型学習と教師型学習の損失を協調的に最適化し,スパンレベルの情報を取得する。
公開可能な2つの英語データセットの実験を行い、実験結果から、提案モデルが最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T13:23:36Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。