論文の概要: SoP: Unlock the Power of Social Facilitation for Automatic Jailbreak Attack
- arxiv url: http://arxiv.org/abs/2407.01902v1
- Date: Tue, 2 Jul 2024 02:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 17:03:34.731596
- Title: SoP: Unlock the Power of Social Facilitation for Automatic Jailbreak Attack
- Title(参考訳): SoP: 自動脱獄攻撃で社会的ファシリテーションの力を解き放つ
- Authors: Yan Yang, Zeguan Xiao, Xin Lu, Hongru Wang, Hailiang Huang, Guanhua Chen, Yun Chen,
- Abstract要約: 私たちはJailbreakプロンプトを自動設計するフレームワークであるSoPを紹介します。
GPT-3.5-1106とGPT-4の安全アライメントを回避し,攻撃成功率88%と60%を達成した。
- 参考スコア(独自算出の注目度): 16.3259723257638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread applications of large language models (LLMs) have brought about concerns regarding their potential misuse. Although aligned with human preference data before release, LLMs remain vulnerable to various malicious attacks. In this paper, we adopt a red-teaming strategy to enhance LLM safety and introduce SoP, a simple yet effective framework to design jailbreak prompts automatically. Inspired by the social facilitation concept, SoP generates and optimizes multiple jailbreak characters to bypass the guardrails of the target LLM. Different from previous work which relies on proprietary LLMs or seed jailbreak templates crafted by human expertise, SoP can generate and optimize the jailbreak prompt in a cold-start scenario using open-sourced LLMs without any seed jailbreak templates. Experimental results show that SoP achieves attack success rates of 88% and 60% in bypassing the safety alignment of GPT-3.5-1106 and GPT-4, respectively. Furthermore, we extensively evaluate the transferability of the generated templates across different LLMs and held-out malicious requests, while also exploring defense strategies against the jailbreak attack designed by SoP. Code is available at https://github.com/Yang-Yan-Yang-Yan/SoP.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な応用は、その潜在的な誤用に関する懸念を引き起こしている。
リリース前の人間の嗜好データと一致しているが、LSMは様々な悪意のある攻撃に対して脆弱である。
本稿では,LDMの安全性を高めるためのレッドチーム戦略を採用し,Jailbreakプロンプトを自動設計するためのシンプルで効果的なフレームワークであるSoPを導入する。
社会的ファシリテーションの概念にインスパイアされたSoPは、ターゲットLLMのガードレールをバイパスするために複数のジェイルブレイク文字を生成し、最適化する。
人間の専門知識によって作られた独自のLLMやシードジェイルブレイクテンプレートに依存する以前の作業とは異なり、SoPはシードジェイルブレイクテンプレートを使わずにオープンソースのLLMを使用して、コールドスタートシナリオでジェイルブレイクプロンプトを生成し、最適化することができる。
その結果, GPT-3.5-1106 と GPT-4 の安全アライメントを回避し, 攻撃成功率88%, 60%を達成できた。
さらに、異なるLSM間で生成されたテンプレートの転送可能性や悪意のある要求を抑えるとともに、SoPが設計したジェイルブレイク攻撃に対する防御戦略についても検討した。
コードはhttps://github.com/Yang-Yan-Yan-Yan/SoP.comで入手できる。
関連論文リスト
- SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
本稿では,GPT-3.5が攻撃成功率(ASR)を8.97~95.74%抑制できることを示す。
また、調整したモデルが標的のGCGに対して堅牢であることや、インジェクション攻撃の迅速化を実証的に示す。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [36.08357229578738]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAPは、少数のクエリだけでプロンプトの80%以上をジェイルブレイク状態のLLMで実行するプロンプトを生成する。
TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2023-12-04T18:49:23Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。