論文の概要: PRP: Propagating Universal Perturbations to Attack Large Language Model
Guard-Rails
- arxiv url: http://arxiv.org/abs/2402.15911v1
- Date: Sat, 24 Feb 2024 21:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:19:15.459105
- Title: PRP: Propagating Universal Perturbations to Attack Large Language Model
Guard-Rails
- Title(参考訳): PRP:大規模言語モデルガード-Railsを攻撃するためのユニバーサルな摂動を推進
- Authors: Neal Mangaokar, Ashish Hooda, Jihye Choi, Shreyas Chandrashekaran,
Kassem Fawaz, Somesh Jha, Atul Prakash
- Abstract要約: 大規模言語モデル(LLM)は通常、人間に無害であるように整列される。
近年の研究では、このようなモデルが、有害なコンテンツを生成するよう誘導する自動ジェイルブレイク攻撃の影響を受けやすいことが示されている。
私たちの重要な貢献は、新しい攻撃戦略であるRPPを示すことです。これは、いくつかのオープンソース(例えば、Llama 2)とGPT 3.5)実装のクローズドソース(例えば、GPT 3.5)に対して成功したものです。
- 参考スコア(独自算出の注目度): 26.090757124460552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are typically aligned to be harmless to humans.
Unfortunately, recent work has shown that such models are susceptible to
automated jailbreak attacks that induce them to generate harmful content. More
recent LLMs often incorporate an additional layer of defense, a Guard Model,
which is a second LLM that is designed to check and moderate the output
response of the primary LLM. Our key contribution is to show a novel attack
strategy, PRP, that is successful against several open-source (e.g., Llama 2)
and closed-source (e.g., GPT 3.5) implementations of Guard Models. PRP
leverages a two step prefix-based attack that operates by (a) constructing a
universal adversarial prefix for the Guard Model, and (b) propagating this
prefix to the response. We find that this procedure is effective across
multiple threat models, including ones in which the adversary has no access to
the Guard Model at all. Our work suggests that further advances are required on
defenses and Guard Models before they can be considered effective.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、人間に無害であるように整列される。
残念なことに、最近の研究では、このようなモデルが、有害なコンテンツを生成するよう誘導する自動ジェイルブレイク攻撃の影響を受けやすいことが示されている。
より最近のllmには、プライマリllmの出力応答をチェックおよび緩和するように設計された第2のllmであるガードモデルの追加の防御層が組み込まれていることが多い。
私たちの重要な貢献は、いくつかのオープンソース(例えば、llama 2)とクローズドソース(例えばgpt 3.5)のガードモデルの実装に対して成功した、新しい攻撃戦略であるprpを示すことです。
PRPは2段階のプレフィックスベースの攻撃を利用する。
(a)ガードモデルのための普遍的敵プレフィックスの構築及び
(b)この接頭辞を応答に伝達すること。
この手順は、敵がガードモデルにまったくアクセスできないようなものを含む、複数の脅威モデルにまたがって有効であることが分かりました。
我々の研究は、防衛モデルや警備モデルにさらなる進歩が必要であることを示唆している。
関連論文リスト
- Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers [29.554818890832887]
マルチターン会話型大規模言語モデル(LLM)は、バックドア攻撃に影響を及ぼすデータに対して脆弱である。
LLMは、バックドアのトリガーが複数の発話にまたがる、より有害でステルス的なバックドア攻撃の危険にさらされている。
本稿では,より困難なマルチターン対話設定のための新しい防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-07-04T20:57:06Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
本稿では,GPT-3.5が攻撃成功率(ASR)を8.97~95.74%抑制できることを示す。
また、調整したモデルが標的のGCGに対して堅牢であることや、インジェクション攻撃の迅速化を実証的に示す。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。