論文の概要: Compositional Generalisation for Explainable Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2506.03916v1
- Date: Wed, 04 Jun 2025 13:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.339132
- Title: Compositional Generalisation for Explainable Hate Speech Detection
- Title(参考訳): 説明可能なヘイト音声検出のための合成一般化
- Authors: Agostina Calabrese, Tom Sherborne, Björn Ross, Mirella Lapata,
- Abstract要約: ヘイトスピーチ検出はオンラインコンテンツモデレーションの鍵であるが、現在のモデルはトレーニングデータ以上の一般化に苦慮している。
モデルがよりきめ細かなスパンレベルのアノテーションでトレーニングされている場合でも、それらのラベルの意味を周囲のコンテキストから切り離すことに苦労しています。
本研究では,すべての文脈で同じ頻度で表現が生じるデータセット上でのトレーニングにより,一般化が向上するかどうかを検討する。
- 参考スコア(独自算出の注目度): 52.41588643566991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech detection is key to online content moderation, but current models struggle to generalise beyond their training data. This has been linked to dataset biases and the use of sentence-level labels, which fail to teach models the underlying structure of hate speech. In this work, we show that even when models are trained with more fine-grained, span-level annotations (e.g., "artists" is labeled as target and "are parasites" as dehumanising comparison), they struggle to disentangle the meaning of these labels from the surrounding context. As a result, combinations of expressions that deviate from those seen during training remain particularly difficult for models to detect. We investigate whether training on a dataset where expressions occur with equal frequency across all contexts can improve generalisation. To this end, we create U-PLEAD, a dataset of ~364,000 synthetic posts, along with a novel compositional generalisation benchmark of ~8,000 manually validated posts. Training on a combination of U-PLEAD and real data improves compositional generalisation while achieving state-of-the-art performance on the human-sourced PLEAD.
- Abstract(参考訳): ヘイトスピーチ検出はオンラインコンテンツモデレーションの鍵であるが、現在のモデルはトレーニングデータ以上の一般化に苦慮している。
これは、データセットバイアスと文レベルのラベルの使用と関連付けられており、ヘイトスピーチの基盤構造をモデルに教えることに失敗している。
本研究では,モデルがよりきめ細かなスパンレベルのアノテーション(例えば「アーティスト」は対象とされ,「寄生虫」は非人為的比較である)で訓練されたとしても,それらのラベルの意味を周囲の文脈から切り離すのに苦労していることを示す。
結果として、トレーニング中に見られた表現から逸脱する表現の組み合わせは、モデルが検出することが特に困難である。
本研究では,すべての文脈で同じ頻度で表現が生じるデータセット上でのトレーニングにより,一般化が向上するかどうかを検討する。
この目的のために、約364,000の合成ポストのデータセットであるU-PLEADと、約8,000の手動検証ポストの新たな合成一般化ベンチマークを作成する。
U-PLEADと実データの組み合わせによるトレーニングは、人為的なPLEADの最先端性能を達成しつつ、構成の一般化を改善する。
関連論文リスト
- The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning [86.19804569376333]
インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。
より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - Weigh Your Own Words: Improving Hate Speech Counter Narrative Generation
via Attention Regularization [31.40751207207214]
オンラインヘイトスピーチと戦うための最近の計算手法は、カウンターナラティブの自動生成を伴う。
本稿では, PLMの一般化機能を改善するために, 新たなアテンション正規化手法を提案する。
正規化されたモデルは、ほとんどの場合において最先端のアプローチよりも優れたカウンターナラティブを生み出す。
論文 参考訳(メタデータ) (2023-09-05T15:27:22Z) - Combating high variance in Data-Scarce Implicit Hate Speech
Classification [0.0]
我々は,最先端の性能を実現する新しいRoBERTaモデルを開発した。
本稿では,様々な最適化手法と正規化手法を探求し,最先端性能を実現するRoBERTaベースの新しいモデルを開発する。
論文 参考訳(メタデータ) (2022-08-29T13:45:21Z) - Generalizing Hate Speech Detection Using Multi-Task Learning: A Case Study of Political Public Figures [3.825159708387601]
本研究では,複数のヘイトスピーチデータセットを同時に学習するマルチタスク学習パイプラインを提案する。
列車-テスト分割における一般化誤差を調べる際には強い結果が得られ、これまで見つからなかったデータセットの予測では大幅に改善された。
論文 参考訳(メタデータ) (2022-08-22T21:13:38Z) - ToKen: Task Decomposition and Knowledge Infusion for Few-Shot Hate
Speech Detection [85.68684067031909]
この問題を数ショットの学習タスクとみなし、タスクを「構成」部分に分解することで大きな成果を上げている。
さらに、推論データセット(例えばAtomic 2020)から知識を注入することで、パフォーマンスはさらに向上する。
論文 参考訳(メタデータ) (2022-05-25T05:10:08Z) - CONFIT: Toward Faithful Dialogue Summarization with
Linguistically-Informed Contrastive Fine-tuning [5.389540975316299]
生成された要約における現実的な矛盾は、抽象的な対話要約の実践的応用を著しく制限する。
本稿では,エラーのタイプを強調し,事実性に対する二項的理解から遠ざかるために,アノテーションデータを用いた事実的エラーのタイプ分析を行う。
本稿では,ConFiTと呼ばれる新しいコントラスト微調整手法により,要約の事実整合性と全体的な品質を改善するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T09:08:40Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Counterfactually-Augmented SNLI Training Data Does Not Yield Better
Generalization Than Unaugmented Data [27.738670027154555]
自然言語理解データのカウンターファクト拡張は、トレーニングデータの収集に有効な方法ではない。
本研究は、英語の自然言語推論データを用いて、モデル一般化とロバスト性をテストする。
論文 参考訳(メタデータ) (2020-10-09T18:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。