論文の概要: GradSafe: Detecting Unsafe Prompts for LLMs via Safety-Critical Gradient
Analysis
- arxiv url: http://arxiv.org/abs/2402.13494v1
- Date: Wed, 21 Feb 2024 03:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:35:19.885205
- Title: GradSafe: Detecting Unsafe Prompts for LLMs via Safety-Critical Gradient
Analysis
- Title(参考訳): gradsafe:safety-criticalgradient analysisによるllmのunsafeプロンプトの検出
- Authors: Yueqi Xie, Minghong Fang, Renjie Pi, Neil Gong
- Abstract要約: LLMにおける安全クリティカルパラメータの勾配を精査することにより、安全でないプロンプトを効果的に検出するGradSafeを提案する。
LLMの安全でないプロンプトに対する損失の勾配とコンプライアンス応答との組み合わせは、特定の安全クリティカルパラメータに類似したパターンを示す。
GradSafeはLlama Guardよりも優れていますが、大きなデータセットで微調整されています。
- 参考スコア(独自算出の注目度): 10.077926831443067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face threats from unsafe prompts. Existing
methods for detecting unsafe prompts are primarily online moderation APIs or
finetuned LLMs. These strategies, however, often require extensive and
resource-intensive data collection and training processes. In this study, we
propose GradSafe, which effectively detects unsafe prompts by scrutinizing the
gradients of safety-critical parameters in LLMs. Our methodology is grounded in
a pivotal observation: the gradients of an LLM's loss for unsafe prompts paired
with compliance response exhibit similar patterns on certain safety-critical
parameters. In contrast, safe prompts lead to markedly different gradient
patterns. Building on this observation, GradSafe analyzes the gradients from
prompts (paired with compliance responses) to accurately detect unsafe prompts.
We show that GradSafe, applied to Llama-2 without further training, outperforms
Llama Guard, despite its extensive finetuning with a large dataset, in
detecting unsafe prompts. This superior performance is consistent across both
zero-shot and adaptation scenarios, as evidenced by our evaluations on the
ToxicChat and XSTest. The source code is available at
https://github.com/xyq7/GradSafe.
- Abstract(参考訳): 大きな言語モデル(LLM)は、安全でないプロンプトからの脅威に直面します。
既存の安全でないプロンプトを検出する方法は、主にオンラインモデレーションAPIまたは微調整LDMである。
しかし、これらの戦略は、広範囲でリソース集約的なデータ収集とトレーニングプロセスを必要とすることが多い。
本研究では,LLMにおける安全クリティカルパラメータの勾配を精査することにより,安全でないプロンプトを効果的に検出するGradSafeを提案する。
LLMの安全でないプロンプトに対する損失の勾配とコンプライアンス応答との組み合わせは、特定の安全クリティカルパラメータに類似したパターンを示す。
対照的に、safeプロンプトは著しく異なる勾配パターンをもたらす。
この観察に基づいてgradsafeは、プロンプト(コンプライアンス応答とペア化)からの勾配を分析して、安全でないプロンプトを正確に検出する。
Llama Guardは、大規模なデータセットで微調整されているにも関わらず、安全でないプロンプトを検出するのに優れています。
この優れたパフォーマンスは、ToxicChatとXSTestで評価されたように、ゼロショットとアダプションの両方のシナリオで一貫しています。
ソースコードはhttps://github.com/xyq7/GradSafeで入手できる。
関連論文リスト
- HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks [89.54736699767315]
我々は、LLMの有害な知識を直接解き放つことは、脱獄攻撃から守るためのより効果的な方法になり得ると推測する。
Vicuna-7Bの攻撃成功率(ASR)は82.6%から7.7%に低下した。
Llama2-7B-Chatは、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でも21.9%のASRを持つ。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。