論文の概要: AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization
- arxiv url: http://arxiv.org/abs/2405.19668v1
- Date: Thu, 30 May 2024 03:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:16:37.135609
- Title: AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization
- Title(参考訳): AutoBreach: 効率的なWordplay-Guided最適化によるユニバーサルで適応的なジェイルブレーク
- Authors: Jiawei Chen, Xiao Yang, Zhengwei Fang, Yu Tian, Yinpeng Dong, Zhaoxia Yin, Hang Su,
- Abstract要約: 大規模言語モデル(LLM)をジェイルブレイクする新しい手法であるAutoBreachを紹介する。
ワードプレイの汎用性にインスパイアされたAutoBreachは、ワードプレイ誘導マッピングルールサンプリング戦略を使用して、敵のプロンプトを生成する。
AutoBreachは、Claude-3、GPT-3.5、GPT-4 Turboの3つのプロプライエタリなモデルと、Bingchat、GPT-4 Webの2つのLLMのWebプラットフォームを含む、様々なLLMのセキュリティ脆弱性を効果的に識別することができる。
- 参考スコア(独自算出の注目度): 31.034290076970205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the widespread application of large language models (LLMs) across various tasks, recent studies indicate that they are susceptible to jailbreak attacks, which can render their defense mechanisms ineffective. However, previous jailbreak research has frequently been constrained by limited universality, suboptimal efficiency, and a reliance on manual crafting. In response, we rethink the approach to jailbreaking LLMs and formally define three essential properties from the attacker' s perspective, which contributes to guiding the design of jailbreak methods. We further introduce AutoBreach, a novel method for jailbreaking LLMs that requires only black-box access. Inspired by the versatility of wordplay, AutoBreach employs a wordplay-guided mapping rule sampling strategy to generate a variety of universal mapping rules for creating adversarial prompts. This generation process leverages LLMs' automatic summarization and reasoning capabilities, thus alleviating the manual burden. To boost jailbreak success rates, we further suggest sentence compression and chain-of-thought-based mapping rules to correct errors and wordplay misinterpretations in target LLMs. Additionally, we propose a two-stage mapping rule optimization strategy that initially optimizes mapping rules before querying target LLMs to enhance the efficiency of AutoBreach. AutoBreach can efficiently identify security vulnerabilities across various LLMs, including three proprietary models: Claude-3, GPT-3.5, GPT-4 Turbo, and two LLMs' web platforms: Bingchat, GPT-4 Web, achieving an average success rate of over 80% with fewer than 10 queries
- Abstract(参考訳): 大規模言語モデル(LLM)が様々なタスクに広く適用されているにもかかわらず、最近の研究は、これらがジェイルブレイク攻撃の影響を受けやすいことを示唆している。
しかし、以前のジェイルブレイクの研究は、限られた普遍性、最適下限の効率、手工芸への依存によってしばしば制限されてきた。
そこで我々は, ジェイルブレイク手法の設計の指針となる3つの重要な特性を, 攻撃者の視点で正式に定義し, ジェイルブレイク手法のアプローチを再考する。
ブラックボックスアクセスのみを必要とするLDMをジェイルブレイクする新しい方法であるAutoBreachについても紹介する。
ワードプレイの汎用性にインスパイアされたAutoBreachは、ワードプレイ誘導マッピングルールサンプリング戦略を使用して、敵のプロンプトを生成するための様々なユニバーサルマッピングルールを生成する。
この生成プロセスはLLMの自動要約と推論機能を活用し、手作業による負担を軽減する。
ジェイルブレイクの成功率を高めるために、ターゲットLLMにおける誤りや単語の誤りを訂正するための文圧縮とチェーン・オブ・ソート・マッピング・ルールを提案する。
さらに,2段階のマッピングルール最適化手法を提案し,まず最初に目標LLMを問合せする前にマッピングルールを最適化し,AutoBreachの効率を向上する。
AutoBreachは、Claude-3、GPT-3.5、GPT-4 Turbo、および2つのLLMのWebプラットフォームを含む、様々なLLMのセキュリティ脆弱性を効率的に識別することができる。
関連論文リスト
- RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent [24.487441771427434]
我々は,コンテキスト認識型ジェイルブレイクプロンプトを生成するためのマルチエージェントLLMシステムRedAgentを提案する。
我々のシステムは、ほとんどのブラックボックスLSMをたった5つのクエリでジェイルブレイクすることができ、既存のレッドチーム方式の効率を2倍に向上させることができる。
すべての問題を報告し、バグ修正のためにOpenAIとMetaと通信しました。
論文 参考訳(メタデータ) (2024-07-23T17:34:36Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Efficient LLM-Jailbreaking by Introducing Visual Modality [28.925716670778076]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。
我々のアプローチは、ターゲットのLLMに視覚モジュールを組み込むことで、MLLM(Multimodal large language model)を構築することから始まる。
我々は, EmbJS をテキスト空間に変換し, ターゲット LLM のジェイルブレイクを容易にする。
論文 参考訳(メタデータ) (2024-05-30T12:50:32Z) - Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models [14.571852591904092]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。
我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。
我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2024-02-05T18:54:43Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。