論文の概要: Certifying LLM Safety against Adversarial Prompting
- arxiv url: http://arxiv.org/abs/2309.02705v2
- Date: Tue, 28 Nov 2023 01:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:46:18.738040
- Title: Certifying LLM Safety against Adversarial Prompting
- Title(参考訳): 対向プロンプトに対するllm安全性の検証
- Authors: Aounon Kumar, Chirag Agarwal, Suraj Srinivas, Aaron Jiaxun Li, Soheil
Feizi and Himabindu Lakkaraju
- Abstract要約: 大きな言語モデルは、有害なコンテンツを生成するユーザの要求を減らすべきである。
敵の攻撃は 悪質に設計されたトークンの シーケンスを追加します モデルの安全ガードをバイパスする 有害なプロンプトに
安全保証を検証し、敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
- 参考スコア(独自算出の注目度): 75.19953634352258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) released for public use incorporate guardrails
to ensure their output is safe, often referred to as "model alignment." An
aligned language model should decline a user's request to produce harmful
content. However, such safety measures are vulnerable to adversarial attacks,
which add maliciously designed token sequences to a harmful prompt to bypass
the model's safety guards. In this work, we introduce erase-and-check, the
first framework to defend against adversarial prompts with verifiable safety
guarantees. We defend against three attack modes: i) adversarial suffix, which
appends an adversarial sequence at the end of the prompt; ii) adversarial
insertion, where the adversarial sequence is inserted anywhere in the middle of
the prompt; and iii) adversarial infusion, where adversarial tokens are
inserted at arbitrary positions in the prompt, not necessarily as a contiguous
block. Our experimental results demonstrate that this procedure can obtain
strong certified safety guarantees on harmful prompts while maintaining good
empirical performance on safe prompts. For example, against adversarial
suffixes of length 20, it certifiably detects 92% of harmful prompts and labels
94% of safe prompts correctly using the open-source language model Llama 2 as
the safety filter. We further improve the filter's performance, in terms of
accuracy and speed, by replacing Llama 2 with a DistilBERT safety classifier
fine-tuned on safe and harmful prompts. Additionally, we propose two efficient
empirical defenses: i) RandEC, a randomized version of erase-and-check that
evaluates the safety filter on a small subset of the erased subsequences, and
ii) GradEC, a gradient-based version that optimizes the erased tokens to remove
the adversarial sequence. The code for our experiments is available at
https://github.com/aounon/certified-llm-safety.
- Abstract(参考訳): 一般向けにリリースされた大型言語モデル(llm)は、出力が安全であることを保証するためにguardrailsを組み込んでいる。
整列型言語モデルは、有害なコンテンツを生成するユーザの要求を減らすべきである。
しかし、このような安全対策は敵の攻撃に弱いため、悪意ある設計のトークンシーケンスをモデルの安全ガードをバイパスする有害なプロンプトに追加する。
本稿では,検証可能な安全性保証によって敵のプロンプトから防御する最初のフレームワークである消去・チェックを紹介する。
我々は3つの攻撃モードに対して防御する。
一 相手方の接尾辞で、プロンプトの終わりに相手方の接尾辞を付すもの
二 相手方の挿入であって、相手方のシーケンスがプロンプトの中央のどこにでも挿入されているもの
三 敵トークンをそのプロンプトにおいて任意の位置に挿入する場合であって、必ずしも連続ブロックではないもの
実験結果から, 安全プロンプトの安全性が保証され, 安全プロンプトの良好な試験性能が維持できることがわかった。
例えば、長さ20の敵の接尾辞に対して、有害なプロンプトの92%を確実に検出し、オープンソースの言語モデルであるLlama 2を安全フィルタとして、安全なプロンプトの94%を正しく検出する。
我々は,安全かつ有害なプロンプトを微調整したディチルバート安全分類器をllama 2に置き換えることで,精度と速度の面でフィルタの性能をさらに向上させる。
さらに,2つの効果的な実証的防御法を提案する。
i) 消去されたサブシーケンスの小さなサブセット上で安全フィルタを評価する消去・チェックのランダム化バージョンであるrandec
ii) gradecは,消去されたトークンを最適化して逆シーケンスを削除する勾配ベースのバージョンである。
私たちの実験のコードはhttps://github.com/aounon/certified-llm-safetyで利用可能です。
関連論文リスト
- Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders [5.070104802923903]
UnsafeプロンプトはLarge Language Models (LLM)に重大な脅威をもたらす
本稿では,安全でないプロンプトと区別する文エンコーダの可能性について検討する。
我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリパーティメトリックを導入します。
論文 参考訳(メタデータ) (2024-07-09T13:35:54Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - An LLM can Fool Itself: A Prompt-Based Adversarial Attack [26.460067102821476]
本稿では, プロンプトベースの対向攻撃(PromptAttack)を用いて, LLMの対向ロバスト性を評価する効率的なツールを提案する。
PromptAttackは、敵のテキスト攻撃を攻撃プロンプトに変換することで、被害者のLSMが敵のサンプルを不正に出力する可能性がある。
Llama2とGPT-3.5を使った総合的な実験結果から、PromptAttackはAdvGLUEやAdvGLUE++に比べて攻撃成功率がずっと高いことが証明されている。
論文 参考訳(メタデータ) (2023-10-20T08:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。