論文の概要: HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns
- arxiv url: http://arxiv.org/abs/2501.16750v1
- Date: Tue, 28 Jan 2025 07:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:43.570740
- Title: HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns
- Title(参考訳): HateBench: LLM生成コンテンツとHateキャンペーンに関するHate Speech Detectorのベンチマーク
- Authors: Xinyue Shen, Yixin Wu, Yiting Qu, Michael Backes, Savvas Zannettou, Yang Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、ヘイトスピーチの生成における誤用に対する懸念が高まっている。
我々は,LLM生成ヘイトスピーチ上でのヘイトスピーチ検出をベンチマークするフレームワークであるHateBenchを提案する。
以上の結果から,検知器はLLM生成ヘイトスピーチの同定に一般的に有効であるが,その性能はLLMの新バージョンで低下することがわかった。
- 参考スコア(独自算出の注目度): 29.913089752247362
- License:
- Abstract: Large Language Models (LLMs) have raised increasing concerns about their misuse in generating hate speech. Among all the efforts to address this issue, hate speech detectors play a crucial role. However, the effectiveness of different detectors against LLM-generated hate speech remains largely unknown. In this paper, we propose HateBench, a framework for benchmarking hate speech detectors on LLM-generated hate speech. We first construct a hate speech dataset of 7,838 samples generated by six widely-used LLMs covering 34 identity groups, with meticulous annotations by three labelers. We then assess the effectiveness of eight representative hate speech detectors on the LLM-generated dataset. Our results show that while detectors are generally effective in identifying LLM-generated hate speech, their performance degrades with newer versions of LLMs. We also reveal the potential of LLM-driven hate campaigns, a new threat that LLMs bring to the field of hate speech detection. By leveraging advanced techniques like adversarial attacks and model stealing attacks, the adversary can intentionally evade the detector and automate hate campaigns online. The most potent adversarial attack achieves an attack success rate of 0.966, and its attack efficiency can be further improved by $13-21\times$ through model stealing attacks with acceptable attack performance. We hope our study can serve as a call to action for the research community and platform moderators to fortify defenses against these emerging threats.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ヘイトスピーチの生成における誤用に対する懸念が高まっている。
この問題に対処する努力の中で、ヘイトスピーチ検知器は重要な役割を果たす。
しかし、LLM生成ヘイトスピーチに対する異なる検知器の有効性はほとんど不明である。
本稿では,LLM生成ヘイトスピーチに対するヘイトスピーチ検出をベンチマークするフレームワークであるHateBenchを提案する。
まず,34個の識別グループを含む広範に使用されているLLMが生成した7,838個のサンプルのヘイトスピーチデータセットを構築し,3つのラベルによる微妙なアノテーションを用いた。
次に、LLM生成データセットにおける8つの代表的ヘイトスピーチ検出の有効性を評価する。
以上の結果から,検知器はLLM生成ヘイトスピーチの同定に一般的に有効であるが,その性能はLLMの新バージョンで低下することがわかった。
また、LLMがヘイトスピーチ検出の分野にもたらす新たな脅威である、LLMによるヘイトスピーチキャンペーンの可能性を明らかにする。
敵の攻撃やモデル盗難攻撃のような高度な技術を活用することで、敵は意図的に検知を回避し、オンラインでのヘイトキャンペーンを自動化することができる。
最も強力な敵攻撃は0.966の攻撃成功率を達成し、攻撃効率を13-21\times$でさらに向上させることができる。
この研究は、研究コミュニティやプラットフォームモデレーターが、これらの新興脅威に対する防衛を強化するための行動として役立てられることを期待しています。
関連論文リスト
- Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering [22.594296353433855]
我々は、よりコジェントな応答を生成するために、対音声生成の2つの側面に焦点を当てる。
まず、安全ガードレールの存在が世代の品質を損なうかどうかを検証する。
第二に、ヘイトスピーチの特定の要素を攻撃することが、オンラインヘイトと戦うためのより効果的な議論戦略をもたらすかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-04T14:31:37Z) - Decoding Hate: Exploring Language Models' Reactions to Hate Speech [2.433983268807517]
本稿では,7つの最先端の大規模言語モデルの音声を嫌う反応について検討する。
我々は、これらのモデルが生み出す反応のスペクトルを明らかにし、ヘイトスピーチ入力を処理する能力を明らかにする。
また,LLMによるヘイトスピーチ生成を緩和するための戦略についても論じる。
論文 参考訳(メタデータ) (2024-10-01T15:16:20Z) - HateTinyLLM : Hate Speech Detection Using Tiny Large Language Models [0.0]
ヘイトスピーチ(Hate speech)は、個人やグループに対する軽蔑的または差別的な言語をターゲットにした、言語、書面、行動的なコミュニケーションを包含する。
HateTinyLLMは、効率的なヘイトスピーチ検出のための微調整デコーダのみの小さな大規模言語モデル(tinyLLM)に基づく、新しいフレームワークである。
論文 参考訳(メタデータ) (2024-04-26T05:29:35Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - HateRephrase: Zero- and Few-Shot Reduction of Hate Intensity in Online
Posts using Large Language Models [4.9711707739781215]
本稿では,投稿前にもヘイトスピーチ内容の表現を示唆するアプローチについて検討する。
タスク記述、ヘイト定義、数発のデモ、思考の連鎖に基づく4つの異なるプロンプトを開発する。
GPT-3.5は,様々な種類のプロンプトに対して,ベースラインモデルやオープンソースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:18:29Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。