論文の概要: AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
- arxiv url: http://arxiv.org/abs/2410.05295v3
- Date: Wed, 27 Nov 2024 04:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:35.062935
- Title: AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
- Title(参考訳): AutoDAN-Turbo: 脱獄 LLM に対する戦略自己探索のための生涯エージェント
- Authors: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao,
- Abstract要約: AutoDAN-Turboは、できるだけ多くのジェイルブレイク戦略をスクラッチから発見できるブラックボックスジェイルブレイク方式だ。
人間設計の戦略を統合することで、AutoDAN-TurboはGPT-4-1106-turboの攻撃成功率93.4を達成できる。
- 参考スコア(独自算出の注目度): 54.9330923156278
- License:
- Abstract: In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that can automatically discover as many jailbreak strategies as possible from scratch, without any human intervention or predefined scopes (e.g., specified candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo can significantly outperform baseline methods, achieving a 74.3% higher average attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an 88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a unified framework that can incorporate existing human-designed jailbreak strategies in a plug-and-play manner. By integrating human-designed strategies, AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on GPT-4-1106-turbo.
- Abstract(参考訳): 本稿では,人間の介入や事前定義された範囲(例えば,特定の候補戦略)を使わずに,可能な限り多くのジェイルブレイク戦略をスクラッチから発見できるブラックボックスジェイルブレイク手法であるAutoDAN-Turboを提案し,それらをレッドチームで使用する。
その結果、AutoDAN-Turboはベースライン法を著しく上回り、公開ベンチマークの平均攻撃成功率は74.3%に達した。
特にAutoDAN-TurboはGPT-4-1106-turboで88.5の攻撃成功率を達成した。
さらにAutoDAN-Turboは、既存の人間設計のジェイルブレイク戦略をプラグイン・アンド・プレイで組み込む統合フレームワークである。
人間設計の戦略を統合することで、AutoDAN-TurboはGPT-4-1106-turboの攻撃成功率93.4を達成できる。
関連論文リスト
- IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。
提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文 参考訳(メタデータ) (2024-10-28T14:48:05Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。
攻撃成功率は90%,80%,74%以上であり,既存のベースラインを60%以上越えている。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - Can Large Language Models Automatically Jailbreak GPT-4V? [64.04997365446468]
本稿では,迅速な最適化にインスパイアされた革新的な自動ジェイルブレイク技術であるAutoJailbreakを紹介する。
実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3%を超えるアタック成功率(ASR)を達成した。
この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。
論文 参考訳(メタデータ) (2024-07-23T17:50:45Z) - Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-31T17:07:15Z) - AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization [31.034290076970205]
大規模言語モデル(LLM)をジェイルブレイクする新しい手法であるAutoBreachを紹介する。
ワードプレイの汎用性にインスパイアされたAutoBreachは、ワードプレイ誘導マッピングルールサンプリング戦略を使用して、敵のプロンプトを生成する。
AutoBreachは、Claude-3、GPT-3.5、GPT-4 Turboの3つのプロプライエタリなモデルと、Bingchat、GPT-4 Webの2つのLLMのWebプラットフォームを含む、様々なLLMのセキュリティ脆弱性を効果的に識別することができる。
論文 参考訳(メタデータ) (2024-05-30T03:38:31Z) - GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation [9.377563769107843]
IRIS(Iterative Refinement induced Self-Jailbreak)は,ブラックボックスアクセスのみのジェイルブレイクに対する新しいアプローチである。
以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。
We found that IRIS jailbreak success rate of 98% on GPT-4, 92% on GPT-4 Turbo, 94% on Llama-3.1-70B in 7 query。
論文 参考訳(メタデータ) (2024-05-21T03:16:35Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。