論文の概要: AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
- arxiv url: http://arxiv.org/abs/2410.05295v1
- Date: Thu, 03 Oct 2024 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:37:25.557447
- Title: AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
- Title(参考訳): AutoDAN-Turbo: 脱獄 LLM に対する戦略自己探索のための生涯エージェント
- Authors: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao,
- Abstract要約: AutoDAN-Turboは、できるだけ多くのジェイルブレイク戦略をスクラッチから発見できるブラックボックスジェイルブレイク方式だ。
人間設計の戦略を統合することで、AutoDAN-TurboはGPT-4-1106-turboの攻撃成功率93.4を達成できる。
- 参考スコア(独自算出の注目度): 54.9330923156278
- License:
- Abstract: In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that can automatically discover as many jailbreak strategies as possible from scratch, without any human intervention or predefined scopes (e.g., specified candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo can significantly outperform baseline methods, achieving a 74.3% higher average attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an 88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a unified framework that can incorporate existing human-designed jailbreak strategies in a plug-and-play manner. By integrating human-designed strategies, AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on GPT-4-1106-turbo.
- Abstract(参考訳): 本稿では,人間の介入や事前定義された範囲(例えば,特定の候補戦略)を使わずに,可能な限り多くのジェイルブレイク戦略をスクラッチから発見できるブラックボックスジェイルブレイク手法であるAutoDAN-Turboを提案し,それらをレッドチームで使用する。
その結果、AutoDAN-Turboはベースライン法を著しく上回り、公開ベンチマークの平均攻撃成功率は74.3%に達した。
特にAutoDAN-TurboはGPT-4-1106-turboで88.5の攻撃成功率を達成した。
さらにAutoDAN-Turboは、既存の人間設計のジェイルブレイク戦略をプラグイン・アンド・プレイで組み込む統合フレームワークである。
人間設計の戦略を統合することで、AutoDAN-TurboはGPT-4-1106-turboの攻撃成功率93.4を達成できる。
関連論文リスト
- Can Large Language Models Automatically Jailbreak GPT-4V? [64.04997365446468]
本稿では,迅速な最適化にインスパイアされた革新的な自動ジェイルブレイク技術であるAutoJailbreakを紹介する。
実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3%を超えるアタック成功率(ASR)を達成した。
この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。
論文 参考訳(メタデータ) (2024-07-23T17:50:45Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
我々は、一般的なGPT-3.5/4モデルを用いて、主要なジェイルブレイク攻撃すべてに対して実証的に検証した。
これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵する。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-31T17:07:15Z) - AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization [31.034290076970205]
大規模言語モデル(LLM)をジェイルブレイクする新しい手法であるAutoBreachを紹介する。
ワードプレイの汎用性にインスパイアされたAutoBreachは、ワードプレイ誘導マッピングルールサンプリング戦略を使用して、敵のプロンプトを生成する。
AutoBreachは、Claude-3、GPT-3.5、GPT-4 Turboの3つのプロプライエタリなモデルと、Bingchat、GPT-4 Webの2つのLLMのWebプラットフォームを含む、様々なLLMのセキュリティ脆弱性を効果的に識別することができる。
論文 参考訳(メタデータ) (2024-05-30T03:38:31Z) - GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation [9.377563769107843]
IRIS(Iterative Refinement induced Self-Jailbreak)は,ブラックボックスアクセスのみのジェイルブレイクに対する新しいアプローチである。
以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。
その結果, GPT-4で98%, GPT-4 Turboで92%のIRISジェイルブレイク成功率は7問未満であった。
論文 参考訳(メタデータ) (2024-05-21T03:16:35Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization [98.18718484152595]
本研究は,学習段階と推論段階の両方において,目標の優先順位付けを統合することで,支援と安全性の確保という目標との本質的な対立に対処することを提案する。
我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。
論文 参考訳(メタデータ) (2023-11-15T16:42:29Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Making Adversarial Examples More Transferable and Indistinguishable [7.885043234081768]
本稿では,高い転送性を有する不明瞭な逆例を生成する手法を提案する。
我々の最も優れた転送ベース攻撃NI-TI-DI-AITMは、89.3%の平均的な成功率で6つの古典的な防衛モデルを騙すことができる。
論文 参考訳(メタデータ) (2020-07-08T01:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。