論文の概要: JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks
- arxiv url: http://arxiv.org/abs/2312.10766v3
- Date: Tue, 18 Jun 2024 02:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 04:44:38.252235
- Title: JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks
- Title(参考訳): JailGuard: LLM Promptベースの攻撃のためのユニバーサル検出フレームワーク
- Authors: Xiaoyu Zhang, Cen Zhang, Tianlin Li, Yihao Huang, Xiaojun Jia, Ming Hu, Jie Zhang, Yang Liu, Shiqing Ma, Chao Shen,
- Abstract要約: 本稿では, LLM と MLLM をまたいだジェイルブレイクおよびハイジャック攻撃の普遍的検出フレームワークである JailGuard を提案する。
JailGuardは、攻撃は本質的に、メソッドやモダリティに関わらず、良心的な攻撃よりも堅牢ではない、という原則に基づいている。
15の既知の攻撃タイプにわたる11,000のデータ項目を含む、最初の総合的なマルチモーダルアタックデータセットを構築します。
- 参考スコア(独自算出の注目度): 34.95274579737075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and Multi-Modal LLMs (MLLMs) have played a critical role in numerous applications. However, current LLMs are vulnerable to prompt-based attacks, with jailbreaking attacks enabling LLMs to generate harmful content, while hijacking attacks manipulate the model to perform unintended tasks, underscoring the necessity for detection methods. Unfortunately, existing detecting approaches are usually tailored to specific attacks, resulting in poor generalization in detecting various attacks across different modalities. To address it, we propose JailGuard, a universal detection framework for jailbreaking and hijacking attacks across LLMs and MLLMs. JailGuard operates on the principle that attacks are inherently less robust than benign ones, regardless of method or modality. Specifically, JailGuard mutates untrusted inputs to generate variants and leverages the discrepancy of the variants' responses on the model to distinguish attack samples from benign samples. We implement 18 mutators for text and image inputs and design a mutator combination policy to further improve detection generalization. To evaluate the effectiveness of JailGuard, we build the first comprehensive multi-modal attack dataset, containing 11,000 data items across 15 known attack types. The evaluation suggests that JailGuard achieves the best detection accuracy of 86.14%/82.90% on text and image inputs, outperforming state-of-the-art methods by 11.81%-25.73% and 12.20%-21.40%.
- Abstract(参考訳): LLM(Large Language Model)とMLLM(Multi-Modal LLM)は、多くのアプリケーションにおいて重要な役割を担っている。
しかし、現在のLLMはプロンプトベースの攻撃に対して脆弱であり、Jailbreak攻撃によりLLMは有害なコンテンツを生成するが、ハイジャック攻撃は意図しないタスクを実行するためにモデルを操作し、検出方法の必要性を裏付ける。
残念ながら、既存の検出アプローチは、通常特定の攻撃に合わせて調整されるため、様々なモードにわたる様々な攻撃を検出するには、一般化が不十分である。
そこで我々は,LLM や MLLM にまたがるジェイルブレイクおよびハイジャック攻撃の普遍的検出フレームワークである JailGuard を提案する。
JailGuardは、攻撃は本質的に、メソッドやモダリティに関わらず、良心的な攻撃よりも堅牢ではない、という原則に基づいている。
具体的には、JailGuardは信頼できない入力を変更して変種を生成し、モデル上の変種応答の相違を利用して、攻撃サンプルと良質なサンプルを区別する。
テキストと画像入力のための18のミュータを実装し、検出一般化をさらに改善するためにミュータの組み合わせポリシーを設計する。
JailGuardの有効性を評価するために,15の既知の攻撃タイプにわたる11,000のデータ項目を含む,最初の総合的マルチモーダルアタックデータセットを構築した。
この評価は、JailGuardがテキストと画像の入力で86.14%/82.90%の最高の検出精度を達成し、最先端の手法を11.81%-25.73%、12.20%-21.40%で上回ったことを示唆している。
関連論文リスト
- WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs [13.317364896194903]
大規模言語モデル(LLM)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示している。
それらはジェイルブレイク攻撃の影響を受けやすく、有害な出力を生成するために操作することができる。
論文 参考訳(メタデータ) (2024-06-13T17:01:40Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment [36.91218391728405]
本稿では,Large Language Modelsの安全性アライメントの脆弱性について検討する。
LLMの既存の攻撃方法は、有毒な訓練データや悪意のあるプロンプトの注入に依存している。
最適化を必要とせず, ステアリングベクターによるモデル動作の修正に成功した最近の成功に触発されて, リピートLLMにおけるその有効性に着想を得た。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドはほとんどあるいは全く生じないことが判明した。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。