論文の概要: Certifying LLM Safety against Adversarial Prompting
- arxiv url: http://arxiv.org/abs/2309.02705v1
- Date: Wed, 6 Sep 2023 04:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 16:57:31.638553
- Title: Certifying LLM Safety against Adversarial Prompting
- Title(参考訳): 対向プロンプトに対するllm安全性の検証
- Authors: Aounon Kumar, Chirag Agarwal, Suraj Srinivas, Soheil Feizi and Hima
Lakkaraju
- Abstract要約: 大きな言語モデルは、有害なコンテンツを生成するユーザの要求を減らすべきである。
敵のプロンプトには 悪意のある トークンシーケンスが含まれてる モデルの安全ガードを回避できる
安全保証を検証し、敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
- 参考スコア(独自算出の注目度): 63.37086754740212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) released for public use incorporate guardrails
to ensure their output is safe, often referred to as "model alignment." An
aligned language model should decline a user's request to produce harmful
content. However, such safety measures are vulnerable to adversarial prompts,
which contain maliciously designed token sequences to circumvent the model's
safety guards and cause it to produce harmful content. In this work, we
introduce erase-and-check, the first framework to defend against adversarial
prompts with verifiable safety guarantees. We erase tokens individually and
inspect the resulting subsequences using a safety filter. Our procedure labels
the input prompt as harmful if any subsequences or the input prompt are
detected as harmful by the filter. This guarantees that any adversarial
modification of a harmful prompt up to a certain size is also labeled harmful.
We defend against three attack modes: i) adversarial suffix, which appends an
adversarial sequence at the end of the prompt; ii) adversarial insertion, where
the adversarial sequence is inserted anywhere in the middle of the prompt; and
iii) adversarial infusion, where adversarial tokens are inserted at arbitrary
positions in the prompt, not necessarily as a contiguous block. Empirical
results demonstrate that our technique obtains strong certified safety
guarantees on harmful prompts while maintaining good performance on safe
prompts. For example, against adversarial suffixes of length 20, it certifiably
detects 93% of the harmful prompts and labels 94% of the safe prompts as safe
using the open source language model Llama 2 as the safety filter.
- Abstract(参考訳): 一般向けにリリースされた大型言語モデル(llm)は、出力が安全であることを保証するためにguardrailsを組み込んでいる。
整列型言語モデルは、有害なコンテンツを生成するユーザの要求を減らすべきである。
しかし、このような安全対策は、モデルの安全ガードを回避し有害なコンテンツを生み出すために悪意ある設計のトークンシーケンスを含む敵のプロンプトに対して脆弱である。
本稿では,検証可能な安全性保証によって敵のプロンプトから防御する最初のフレームワークである消去・チェックを紹介する。
トークンを個別に消去し、セーフティフィルタを用いて結果のサブシーケンスを検査する。
提案手法では, サブシーケンスや入力プロンプトがフィルタによって有害であると検出された場合, 入力プロンプトを有害であるとラベル付けする。
これは、有害なプロンプトの特定のサイズまで敵の修正が有害であることも保証する。
我々は3つの攻撃モードに対して防御する。
一 相手方の接尾辞で、プロンプトの終わりに相手方の接尾辞を付すもの
二 相手方の挿入であって、相手方のシーケンスがプロンプトの中央のどこにでも挿入されているもの
三 敵トークンをそのプロンプトにおいて任意の位置に挿入する場合であって、必ずしも連続ブロックではないもの
実験の結果,本手法は有害なプロンプトに対して高い安全性を保証し,安全プロンプトにおいて良好な性能を維持していることが示された。
例えば、長さ20の逆接接尾辞に対して、有害なプロンプトの93%を確実に検出し、安全フィルタとしてオープンソースの言語モデルLlama2を用いて、安全プロンプトの94%を安全であるとラベル付けする。
関連論文リスト
- AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware
Decoding [37.88220351224544]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - An LLM can Fool Itself: A Prompt-Based Adversarial Attack [26.460067102821476]
本稿では, プロンプトベースの対向攻撃(PromptAttack)を用いて, LLMの対向ロバスト性を評価する効率的なツールを提案する。
PromptAttackは、敵のテキスト攻撃を攻撃プロンプトに変換することで、被害者のLSMが敵のサンプルを不正に出力する可能性がある。
Llama2とGPT-3.5を使った総合的な実験結果から、PromptAttackはAdvGLUEやAdvGLUE++に比べて攻撃成功率がずっと高いことが証明されている。
論文 参考訳(メタデータ) (2023-10-20T08:16:46Z) - Semantic-Preserving Adversarial Code Comprehension [75.76118224437974]
本稿では,セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アタック(SPACE)を提案する。
実験と分析により、SPACEは、コードに対するPrLMのパフォーマンスを高めながら、最先端の攻撃に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-09-12T10:32:51Z) - FuncFooler: A Practical Black-box Attack Against Learning-based Binary
Code Similarity Detection Methods [13.694322857909166]
本稿では,FuncFoolerという,効率的かつブラックボックスなコード生成アルゴリズムを設計する。
FuncFoolerは、プログラムの制御フローグラフ(CFG)を変更せず、同じ意味を保つために、敵のコードを制限する。
経験的に、私たちのFuncFoolerは、SAFE、Asm2Vec、jTransを含む3つの学習ベースのBCSDモデルにうまく対応できます。
論文 参考訳(メタデータ) (2022-08-26T01:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。