論文の概要: Fight Back Against Jailbreaking via Prompt Adversarial Tuning
- arxiv url: http://arxiv.org/abs/2402.06255v2
- Date: Sun, 9 Jun 2024 16:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 03:39:46.081126
- Title: Fight Back Against Jailbreaking via Prompt Adversarial Tuning
- Title(参考訳): プロンプト・アドバイサル・チューニングによる脱獄対策
- Authors: Yichuan Mo, Yuji Wang, Zeming Wei, Yisen Wang,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。
LLMが有害な情報を生み出すのを防ぐために、いくつかの主要な防衛戦略が提案されている。
本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
- 参考スコア(独自算出の注目度): 23.55544992740663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have achieved tremendous success in various applications, they are also susceptible to jailbreak attacks. Several primary defense strategies have been proposed to protect LLMs from producing harmful information, mostly with a particular focus on harmful content filtering or heuristical defensive prompt designs. However, how to achieve intrinsic robustness through the prompts remains an open problem. In this paper, motivated by adversarial training paradigms for achieving reliable robustness, we propose an approach named Prompt Adversarial Tuning (PAT) that trains a prompt control attached to the user prompt as a guard prefix. To achieve our defense goal whilst maintaining natural performance, we optimize the control prompt with both adversarial and benign prompts. Comprehensive experiments show that our method is effective against both black-box and white-box attacks, reducing the success rate of advanced attacks to nearly 0 while maintaining the model's utility on the benign task. The proposed defense strategy incurs only negligible computational overhead, charting a new perspective for future explorations in LLM security. Our code is available at https://github.com/rain152/PAT.
- Abstract(参考訳): 大きな言語モデル(LLM)は様々なアプリケーションで大きな成功を収めていますが、Jailbreak攻撃の影響を受けます。
LLMが有害な情報を生み出すのを防ぐために、いくつかの主要な防衛戦略が提案されており、主に有害なコンテンツフィルタリングやヒューリスティックな防御プロンプトの設計に重点を置いている。
しかし、プロンプトを通した本質的な堅牢性を実現する方法は未解決の問題である。
本稿では,ユーザプロンプトにアタッチメントされたプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
自然性能を維持しながら防衛目標を達成するため、敵と良性の両方のプロンプトで制御プロンプトを最適化する。
包括的実験により,本手法はブラックボックス攻撃とホワイトボックス攻撃の両方に対して有効であることが示された。
提案した防衛戦略は無視可能な計算オーバーヘッドのみを生じさせ、将来のLLMセキュリティの探究の新たな視点をグラフ化している。
私たちのコードはhttps://github.com/rain152/PAT.comで公開されています。
関連論文リスト
- Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Large Language Model Sentinel: Advancing Adversarial Robustness by LLM Agent [27.461127931996323]
大規模言語モデル(LLM)は、よく設計されたテキストの摂動による敵攻撃に対して脆弱である。
LLAMOS(Large LAnguage Model Sentinel)と呼ばれる新しい防御技術を導入し,LLMの対角的堅牢性を高める。
論文 参考訳(メタデータ) (2024-05-24T07:23:56Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。
本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。
GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文 参考訳(メタデータ) (2024-01-30T18:56:08Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。