論文の概要: Robust Prompt Optimization for Defending Language Models Against
Jailbreaking Attacks
- arxiv url: http://arxiv.org/abs/2401.17263v2
- Date: Fri, 2 Feb 2024 21:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:30:25.887513
- Title: Robust Prompt Optimization for Defending Language Models Against
Jailbreaking Attacks
- Title(参考訳): 脱獄攻撃に対する言語モデルのロバストプロンプト最適化
- Authors: Andy Zhou and Bo Li and Haohan Wang
- Abstract要約: 本稿では,脱獄攻撃から言語モデルを守るための最初の敵対的目標を提案する。
厳密なプロンプト最適化(RPO)アルゴリズムは、無害な出力を強制するために勾配ベースのトークン最適化を使用する。
RPOは良性使用に小さな影響を与え、適応攻撃で成功し、ブラックボックスモデルに移行することができる。
- 参考スコア(独自算出の注目度): 19.364674417165908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in AI alignment, language models (LM) remain vulnerable to
adversarial attacks or jailbreaking, in which adversaries modify input prompts
to induce harmful behavior. While some defenses have been proposed, they focus
on narrow threat models and fall short of a strong defense, which we posit
should be effective, universal, and practical. To achieve this, we propose the
first adversarial objective for defending LMs against jailbreaking attacks and
an algorithm, robust prompt optimization (RPO), that uses gradient-based token
optimization to enforce harmless outputs. This results in an easily accessible
suffix that significantly improves robustness to both jailbreaks seen during
optimization and unknown, held-out jailbreaks, reducing the attack success rate
on Starling-7B from 84% to 8.66% across 20 jailbreaks. In addition, we find
that RPO has a minor effect on benign use, is successful under adaptive
attacks, and can transfer to black-box models, reducing the success rate of the
strongest attack on GPT-4, GUARD, from 92% to 6%.
- Abstract(参考訳): AIアライメントの進歩にもかかわらず、言語モデル(LM)は敵の攻撃や脱獄に弱いままであり、敵が入力プロンプトを変更して有害な行動を引き起こす。
いくつかの防衛案が提案されているが、それらは狭義の脅威モデルに焦点を合わせており、我々は効果的で普遍的で実用的であるべきだと考えている。
そこで本研究では,LMをジェイルブレーキング攻撃から守るための最初の敵目標と,無害な出力を実行するために勾配に基づくトークン最適化を用いるロバストプロンプト最適化(RPO)を提案する。
これにより、最適化時に見られるジェイルブレイクと未知のジェイルブレイクの両方に対する堅牢性を著しく改善し、スターリング-7Bの攻撃成功率を20回のジェイルブレイクで84%から8.66%に下げる。
さらに, RPO は良性使用に対して軽微な影響があり, 適応攻撃下では成功し, ブラックボックスモデルへの移行が可能であり, GPT-4 に対する最強攻撃 GUARD の成功率は 92% から 6% に低下することがわかった。
関連論文リスト
- Revisiting character-level adversarial attacks [53.446619686108754]
本稿では、高い攻撃成功率(ASR)を達成することができる効率的なクエリベースの敵攻撃であるCharmerを紹介する。
提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
論文 参考訳(メタデータ) (2024-05-07T14:23:22Z) - Boosting Jailbreak Attack with Momentum [5.047814998088682]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めていますが、敵の攻撃に弱いままです。
textbfMomentum textbfAccelerated GtextbfCG(textbfMAC)攻撃を導入する。
論文 参考訳(メタデータ) (2024-05-02T12:18:14Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial
Tuning [25.732636833706845]
本稿では,PAT(Prompt Adversarial Tuning)という手法を用いて,防御制御機構を訓練する手法を提案する。
我々は、最適化された目標を達成するために、敵の訓練に似た訓練プロセスを設計する。
提案手法はブラックボックスとホワイトボックスの両方で有効である。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Defending Large Language Models Against Jailbreaking Attacks Through
Goal Prioritization [74.9438024948104]
大きな言語モデル(LLM)はその能力の進歩を続けているが、この進歩にはさまざまな安全性リスクが伴っている。
我々は、ジェイルブレイクの成功に寄与する重要な要因を指摘している。
ジェイルブレーキング攻撃に対する対策として,トレーニング段階と推論段階の両方でゴール優先順位付けを統合することを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:42:29Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。