論文の概要: Efficient Detection of Toxic Prompts in Large Language Models
- arxiv url: http://arxiv.org/abs/2408.11727v2
- Date: Sat, 14 Sep 2024 02:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 00:56:51.316139
- Title: Efficient Detection of Toxic Prompts in Large Language Models
- Title(参考訳): 大規模言語モデルにおける有害プロンプトの効率的な検出
- Authors: Yi Liu, Junzhe Yu, Huijia Sun, Ling Shi, Gelei Deng, Yuqi Chen, Yang Liu,
- Abstract要約: 大型言語モデル(LLM)は、有害または非倫理的な反応を誘発する有害なプロンプトを作る悪意のある個人によって利用することができる。
LLMの有害なプロンプトを効率的に検出する軽量グレーボックスであるToxicDetectorを提案する。
ToxicDetectorの精度は96.39%、偽陽性率は2.00%であり、最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 8.794371569341429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) like ChatGPT and Gemini have significantly advanced natural language processing, enabling various applications such as chatbots and automated content generation. However, these models can be exploited by malicious individuals who craft toxic prompts to elicit harmful or unethical responses. These individuals often employ jailbreaking techniques to bypass safety mechanisms, highlighting the need for robust toxic prompt detection methods. Existing detection techniques, both blackbox and whitebox, face challenges related to the diversity of toxic prompts, scalability, and computational efficiency. In response, we propose ToxicDetector, a lightweight greybox method designed to efficiently detect toxic prompts in LLMs. ToxicDetector leverages LLMs to create toxic concept prompts, uses embedding vectors to form feature vectors, and employs a Multi-Layer Perceptron (MLP) classifier for prompt classification. Our evaluation on various versions of the LLama models, Gemma-2, and multiple datasets demonstrates that ToxicDetector achieves a high accuracy of 96.39\% and a low false positive rate of 2.00\%, outperforming state-of-the-art methods. Additionally, ToxicDetector's processing time of 0.0780 seconds per prompt makes it highly suitable for real-time applications. ToxicDetector achieves high accuracy, efficiency, and scalability, making it a practical method for toxic prompt detection in LLMs.
- Abstract(参考訳): ChatGPTやGeminiのような大規模言語モデル(LLM)は、自然言語処理を大幅に進歩させ、チャットボットや自動コンテンツ生成といった様々なアプリケーションを可能にしている。
しかし、これらのモデルは有害または非倫理的な反応を誘発する有害なプロンプトを作る悪質な個人によって悪用される可能性がある。
これらの個体は、しばしば安全メカニズムをバイパスするためにジェイルブレイク技術を使用し、堅牢な有毒な迅速検出方法の必要性を強調している。
既存の検出技術であるブラックボックスとホワイトボックスは、有害なプロンプト、スケーラビリティ、計算効率の多様性に関連する課題に直面している。
そこで本研究では,LSMの有害なプロンプトを効率的に検出する軽量グレーボックスであるToxicDetectorを提案する。
ToxicDetectorはLSMを活用して有毒な概念プロンプトを作成し、埋め込みベクトルを使用して特徴ベクトルを形成し、プロンプト分類にMulti-Layer Perceptron(MLP)分類器を使用する。
ToxicDetectorは96.39\%, 偽陽性率は2.00\%であり, 最先端の手法よりも優れていた。
さらに、ToxicDetectorの処理時間は1プロンプトあたり0.0780秒であり、リアルタイムアプリケーションに非常に適している。
ToxicDetectorは高い精度、効率、スケーラビリティを実現し、LSMにおける有害な迅速検出の実用的な方法である。
関連論文リスト
- PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。
PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-15T14:22:33Z) - Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文 参考訳(メタデータ) (2024-04-09T22:56:05Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。