論文の概要: AmpleHate: Amplifying the Attention for Versatile Implicit Hate Detection
- arxiv url: http://arxiv.org/abs/2505.19528v1
- Date: Mon, 26 May 2025 05:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.188052
- Title: AmpleHate: Amplifying the Attention for Versatile Implicit Hate Detection
- Title(参考訳): AmpleHate:Versatile Implicit Hate Detectionの注意力の増幅
- Authors: Yejin Lee, Joonghyuk Hahn, Hyeseon Ahn, Yo-Sub Han,
- Abstract要約: 暗黙のヘイトスピーチ検出は、明示的な攻撃的な言葉よりも文脈的解釈に微妙で依存しているため、難しい。
暗黙の憎しみ検出のための人間の推論を反映する新しいアプローチであるAmpleHateを提案する。
AmpleHateは最先端のパフォーマンスを達成し、平均82.14%の対照的な学習ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 3.7868240527424177
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Implicit hate speech detection is challenging due to its subtlety and reliance on contextual interpretation rather than explicit offensive words. Current approaches rely on contrastive learning, which are shown to be effective on distinguishing hate and non-hate sentences. Humans, however, detect implicit hate speech by first identifying specific targets within the text and subsequently interpreting how these target relate to their surrounding context. Motivated by this reasoning process, we propose AmpleHate, a novel approach designed to mirror human inference for implicit hate detection. AmpleHate identifies explicit target using a pretrained Named Entity Recognition model and capture implicit target information via [CLS] tokens. It computes attention-based relationships between explicit, implicit targets and sentence context and then, directly injects these relational vectors into the final sentence representation. This amplifies the critical signals of target-context relations for determining implicit hate. Experiments demonstrate that AmpleHate achieves state-of-the-art performance, outperforming contrastive learning baselines by an average of 82.14% and achieve faster convergence. Qualitative analyses further reveal that attention patterns produced by AmpleHate closely align with human judgement, underscoring its interpretability and robustness.
- Abstract(参考訳): 暗黙のヘイトスピーチ検出は、明示的な攻撃的な言葉よりも文脈的解釈に微妙で依存しているため、難しい。
現在のアプローチは対照的な学習に依存しており、ヘイトと非ヘイトな文の区別に有効であることが示されている。
しかし、人間はテキスト内の特定のターゲットを最初に特定し、それらのターゲットが周囲の文脈とどのように関連しているかを解釈することで、暗黙の憎しみのスピーチを検出する。
この推論プロセスによって動機づけられたAmpleHateは、暗黙の憎悪検出のための人間の推論を反映する新しいアプローチである。
AmpleHateは、事前訓練された名前付きエンティティ認識モデルを使用して明示的なターゲットを特定し、[CLS]トークンを介して暗黙的なターゲット情報をキャプチャする。
明示的、暗黙的なターゲットと文コンテキスト間の注意に基づく関係を計算し、これらの関係ベクトルを直接最終文表現に注入する。
これは、暗黙の憎しみを決定するために、ターゲットとコンテキストの関係の重要なシグナルを増幅する。
実験により、AmpleHateは最先端のパフォーマンスを達成し、平均82.14%の対照的な学習ベースラインを上回り、より高速な収束を達成することが示された。
質的な分析により、AmpleHateが生み出した注意パターンは人間の判断と密接に一致し、その解釈可能性と堅牢性を強調していることが明らかとなった。
関連論文リスト
- Selective Demonstration Retrieval for Improved Implicit Hate Speech Detection [4.438698005789677]
ヘイトスピーチ検出は、自然言語処理において重要な研究領域であり、オンラインコミュニティの安全確保に不可欠である。
明示的なヘイトスピーチとは異なり、暗黙の表現は文脈、文化的な微妙さ、隠れた偏見に依存することが多い。
大規模言語モデルは、しばしば有害な言語に対する感受性を高め、脆弱なグループへの参照を示し、誤分類につながる可能性がある。
モデル微調整を必要とせず,文脈内学習を利用した新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-16T13:43:23Z) - Target Span Detection for Implicit Harmful Content [18.84674403712032]
我々は、より微妙なヘイトスピーチを認識し、デジタルプラットフォーム上で有害なコンテンツを検出するために不可欠な、ヘイトスピーチの暗黙のターゲットを特定することに注力する。
我々は、SBIC、DynaHate、IHCの3つの顕著な暗黙のヘイトスピーチデータセットでターゲットを収集し、注釈付けする。
実験の結果,Implicit-Target-Spanはターゲットスパン検出法に挑戦的なテストベッドを提供することがわかった。
論文 参考訳(メタデータ) (2024-03-28T21:15:15Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Guiding Computational Stance Detection with Expanded Stance Triangle
Framework [25.2980607215715]
スタンス検出は、テキストの著者が指定されたターゲットに対して有利か、反対か、中立かを決定する。
本稿では,言語的観点からスタンス検出タスクを分解し,このタスクにおける重要な構成要素と推論経路について検討する。
論文 参考訳(メタデータ) (2023-05-31T13:33:29Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。