論文の概要: Selective Demonstration Retrieval for Improved Implicit Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2504.12082v1
- Date: Wed, 16 Apr 2025 13:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:32.645887
- Title: Selective Demonstration Retrieval for Improved Implicit Hate Speech Detection
- Title(参考訳): 難読Hate音声検出のための選択的復調検索
- Authors: Yumin Kim, Hwanhee Lee,
- Abstract要約: ヘイトスピーチ検出は、自然言語処理において重要な研究領域であり、オンラインコミュニティの安全確保に不可欠である。
明示的なヘイトスピーチとは異なり、暗黙の表現は文脈、文化的な微妙さ、隠れた偏見に依存することが多い。
大規模言語モデルは、しばしば有害な言語に対する感受性を高め、脆弱なグループへの参照を示し、誤分類につながる可能性がある。
モデル微調整を必要とせず,文脈内学習を利用した新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.438698005789677
- License:
- Abstract: Hate speech detection is a crucial area of research in natural language processing, essential for ensuring online community safety. However, detecting implicit hate speech, where harmful intent is conveyed in subtle or indirect ways, remains a major challenge. Unlike explicit hate speech, implicit expressions often depend on context, cultural subtleties, and hidden biases, making them more challenging to identify consistently. Additionally, the interpretation of such speech is influenced by external knowledge and demographic biases, resulting in varied detection results across different language models. Furthermore, Large Language Models often show heightened sensitivity to toxic language and references to vulnerable groups, which can lead to misclassifications. This over-sensitivity results in false positives (incorrectly identifying harmless statements as hateful) and false negatives (failing to detect genuinely harmful content). Addressing these issues requires methods that not only improve detection precision but also reduce model biases and enhance robustness. To address these challenges, we propose a novel method, which utilizes in-context learning without requiring model fine-tuning. By adaptively retrieving demonstrations that focus on similar groups or those with the highest similarity scores, our approach enhances contextual comprehension. Experimental results show that our method outperforms current state-of-the-art techniques. Implementation details and code are available at TBD.
- Abstract(参考訳): ヘイトスピーチ検出は、自然言語処理において重要な研究領域であり、オンラインコミュニティの安全確保に不可欠である。
しかし、有害な意図が微妙または間接的に伝えられる暗黙のヘイトスピーチを検出することは大きな課題である。
明示的なヘイトスピーチとは異なり、暗黙の表現は文脈、文化的な微妙さ、隠れた偏見に依存することが多く、一貫した識別がより困難である。
さらに、このような音声の解釈は、外的知識と人口統計バイアスの影響を受け、異なる言語モデル間で異なる検出結果をもたらす。
さらに、大規模言語モデルは、しばしば有害な言語に対する感受性を高め、脆弱なグループへの参照を示し、誤分類につながる可能性がある。
この過敏性は、偽陽性(誤って無害な文を憎悪であると識別する)と偽陰性(真に有害な内容を検出することができない)をもたらす。
これらの問題に対処するには、検出精度を向上するだけでなく、モデルのバイアスを低減し、堅牢性を高める方法が必要である。
これらの課題に対処するために,モデル微調整を必要とせず,文脈内学習を利用する新しい手法を提案する。
類似したグループや最も類似度が高いグループに焦点をあてたデモを適応的に検索することで,文脈的理解を深める。
実験結果から,本手法は最先端技術よりも優れていることがわかった。
実装の詳細とコードはTBDで入手できる。
関連論文リスト
- Dealing with Annotator Disagreement in Hate Speech Classification [0.0]
本稿では,アノテータの不一致に対処するための戦略について検討する。
トルコのつぶやきにおけるヘイトスピーチ分類に関するアノテータの不一致に対処するための様々なアプローチを、細調整されたBERTモデルに基づいて評価した。
本研究は,問題の重要性を強調し,オンライン談話におけるヘイトスピーチの検出と理解のための最先端のベンチマーク結果を提供する。
論文 参考訳(メタデータ) (2025-02-12T10:19:50Z) - Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context Learning [4.136573141724715]
インターネット上でのヘイトスピーチは、デジタルプラットフォームの安全性にとって大きな課題となる。
近年の研究では、特定のモダリティに合わせた検出モデルが開発されている。
本研究では,大規模言語モデルを用いたテキスト内学習を多用した広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-10-08T01:27:12Z) - Hate Speech Detection via Dual Contrastive Learning [25.878271501274245]
本稿では,ヘイトスピーチ検出のための新しい双方向コントラスト学習フレームワークを提案する。
本フレームワークは,自己教師型学習と教師型学習の損失を協調的に最適化し,スパンレベルの情報を取得する。
公開可能な2つの英語データセットの実験を行い、実験結果から、提案モデルが最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T13:23:36Z) - Combating high variance in Data-Scarce Implicit Hate Speech
Classification [0.0]
我々は,最先端の性能を実現する新しいRoBERTaモデルを開発した。
本稿では,様々な最適化手法と正規化手法を探求し,最先端性能を実現するRoBERTaベースの新しいモデルを開発する。
論文 参考訳(メタデータ) (2022-08-29T13:45:21Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。