論文の概要: HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2511.06391v1
- Date: Sun, 09 Nov 2025 14:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.917584
- Title: HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection
- Title(参考訳): HatePrototypes: 暗黙的・明示的なHate音声検出のための解釈可能・伝達可能表現
- Authors: Irina Proskurina, Marc-Antoine Carpentier, Julien Velcin,
- Abstract要約: HatePrototypesは、ヘイトスピーチの検出と安全性のモデレーションに最適化された言語モデルから派生したクラスレベルのベクトル表現である。
これらのプロトタイプは、ベンチマーク間で交換可能なプロトタイプを使用して、明示的なヘイトと暗黙的なヘイトの間のクロスタスク転送を可能にする。
我々は,効率的かつ伝達可能なヘイトスピーチ検出に関する将来の研究を支援するために,コード,プロトタイプリソース,評価スクリプトをリリースする。
- 参考スコア(独自算出の注目度): 3.789857086168739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization of offensive content moderation models for different types of hateful messages is typically achieved through continued pre-training or fine-tuning on new hate speech benchmarks. However, existing benchmarks mainly address explicit hate toward protected groups and often overlook implicit or indirect hate, such as demeaning comparisons, calls for exclusion or violence, and subtle discriminatory language that still causes harm. While explicit hate can often be captured through surface features, implicit hate requires deeper, full-model semantic processing. In this work, we question the need for repeated fine-tuning and analyze the role of HatePrototypes, class-level vector representations derived from language models optimized for hate speech detection and safety moderation. We find that these prototypes, built from as few as 50 examples per class, enable cross-task transfer between explicit and implicit hate, with interchangeable prototypes across benchmarks. Moreover, we show that parameter-free early exiting with prototypes is effective for both hate types. We release the code, prototype resources, and evaluation scripts to support future research on efficient and transferable hate speech detection.
- Abstract(参考訳): 異なるタイプのヘイトフルメッセージに対する攻撃的コンテンツモデレーションモデルの最適化は、通常、継続した事前トレーニングまたは新しいヘイトスピーチベンチマークの微調整によって達成される。
しかし、既存のベンチマークは主に保護されたグループに対する明示的な憎悪に対処し、しばしば暗黙または間接的な憎悪を見落としている。
明示的な憎悪はしばしば表面的な機能を通してキャプチャされるが、暗黙的な憎悪はより深いフルモデルセマンティック処理を必要とする。
本研究では,ヘイトスピーチの検出と安全性の調整に最適化された言語モデルから派生したクラスレベルのベクトル表現であるHatePrototypes(HatePrototypes)の役割を,繰り返し微調整する必要性を問う。
これらのプロトタイプは、クラス毎に50の例から構築されており、明示的なヘイトと暗黙的なヘイトの間のクロスタスク転送を可能にし、ベンチマーク間で交換可能なプロトタイプを実現しています。
さらに,プロトタイプを用いたパラメータフリー早期退避は,両方のヘイトタイプに有効であることを示す。
我々は,効率的かつ伝達可能なヘイトスピーチ検出に関する将来の研究を支援するために,コード,プロトタイプリソース,評価スクリプトをリリースする。
関連論文リスト
- Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study [59.30098850050971]
この研究は、8つの非英語言語にわたるLLMのプロンプトに基づく検出を評価する。
実世界の評価セットのほとんどにおいて、ゼロショットと少数ショットが微調整エンコーダモデルに遅れを生じさせる一方で、ヘイトスピーチ検出のための関数的テストのより優れた一般化を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-09T16:00:01Z) - DefVerify: Do Hate Speech Models Reflect Their Dataset's Definition? [2.0618817976970103]
DefVerifyは、ユーザーが指定したヘイトスピーチの定義を符号化する3段階の手順である。
DefVerifyを使用して、一般的な6つのヘイトスピーチベンチマークデータセットに適用した場合、定義とモデル動作のギャップを見つけます。
論文 参考訳(メタデータ) (2024-10-21T11:33:18Z) - HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning [29.519687405350304]
本稿では,大規模言語モデル(LLM)の推論能力を利用して,ヘイトスピーチの説明のギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。
SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いた手法がベースラインを一貫して上回ることを示した。
提案手法は,訓練されたモデルの説明品質を高め,未知のデータセットへの一般化を改善する。
論文 参考訳(メタデータ) (2023-11-01T06:09:54Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。