論文の概要: Jailbreaking to Jailbreak
- arxiv url: http://arxiv.org/abs/2502.09638v2
- Date: Thu, 29 May 2025 06:12:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.195922
- Title: Jailbreaking to Jailbreak
- Title(参考訳): ジェイルブレイクからジェイルブレイクへ
- Authors: Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang,
- Abstract要約: 大型言語モデル(LLM)は有害な内容を引き出すために他のモデルをレッドチーム(例えばジェイルブレイク)に使用することができる。
以前の作業ではオープンウェイトモデルやプライベートアンプレッショルドモデルを使用してジェイルブレイクを行うのが一般的だったが、強力なLCM(例えばOpenAI o3)の拒絶(例えばOpenAI o3)はジェイルブレイクを支援することを拒否したため、我々の作業はブラックボックスのLSMを攻撃者に転換した(ほとんど)。
その結果、J$(jailbreak-to-jailbreak)攻撃者は、様々な戦略を使用してターゲットモデルの保護を効果的にジェイルブレイクすることができる。
- 参考スコア(独自算出の注目度): 7.462595078160592
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) can be used to red team other models (e.g. jailbreaking) to elicit harmful contents. While prior works commonly employ open-weight models or private uncensored models for doing jailbreaking, as the refusal-training of strong LLMs (e.g. OpenAI o3) refuse to help jailbreaking, our work turn (almost) any black-box LLMs into attackers. The resulting $J_2$ (jailbreaking-to-jailbreak) attackers can effectively jailbreak the safeguard of target models using various strategies, both created by themselves or from expert human red teamers. In doing so, we show their strong but under-researched jailbreaking capabilities. Our experiments demonstrate that 1) prompts used to create $J_2$ attackers transfer across almost all black-box models; 2) an $J_2$ attacker can jailbreak a copy of itself, and this vulnerability develops rapidly over the past 12 months; 3) reasong models, such as Sonnet-3.7, are strong $J_2$ attackers compared to others. For example, when used against the safeguard of GPT-4o, $J_2$ (Sonnet-3.7) achieves 0.975 attack success rate (ASR), which matches expert human red teamers and surpasses the state-of-the-art algorithm-based attacks. Among $J_2$ attackers, $J_2$ (o3) achieves highest ASR (0.605) against Sonnet-3.5, one of the most robust models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、有害なコンテンツを引き出すために他のモデルをレッドチーム(例えばジェイルブレイク)に使用することができる。
従来の作業では、オープンウェイトモデルやプライベートな非検閲モデルを使用してジェイルブレイクを行うのが一般的でしたが、強力なLDM(eg OpenAI o3)の拒否トレーニングは、ジェイルブレイクを支援することを拒否したため、当社の作業は(ほとんど)ブラックボックスのLSMをアタッカーに回しました。
結果として生じる$J_2$(jailbreak-to-jailbreak)アタッカーは、自分自身または専門家のレッドチームメンバーによって作成されたさまざまな戦略を使用して、ターゲットモデルの保護を効果的にジェイルブレイクすることができる。
そうすることで、強いが、調査されていないジェイルブレイク能力を示す。
私たちの実験は
1) ほとんどすべてのブラックボックスモデルにまたがる、$J_2$アタッカーの転送に使用されるプロンプト。
2)$J_2$攻撃者は自身のコピーをジェイルブレイクでき、この脆弱性は過去12ヶ月で急速に発生します。
3) Sonnet-3.7のような推論モデルは、他のモデルと比べて強い$J_2$攻撃である。
例えば、GPT-4oの安全を守るために使われる場合、$J_2$ (Sonnet-3.7) は 0.975 の攻撃成功率 (ASR) を達成する。
J_2$攻撃者のうち、$J_2$ (o3) は最も堅牢なモデルである Sonnet-3.5 に対して最高 ASR (0.605) を達成する。
関連論文リスト
- JBFuzz: Jailbreaking LLMs Efficiently and Effectively Using Fuzzing [2.3822909465087228]
JBFuzzは、ソフトウェアのバグや脆弱性を検出するファジングの成功にインスパイアされている。
JBFuzzは、様々な有害・非倫理的な質問に対して全てのLSMを投獄し、平均的な攻撃成功率は99%である。
論文 参考訳(メタデータ) (2025-03-12T01:52:17Z) - Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。
LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
本稿では,有害なコンテンツを生成するために,大規模言語モデル(LLM)を誘導する新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJ に対抗するためのセルフリマインダーキー (Self-Reminder-Key) という簡単な防御手法を提案し,その有効性を実証する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。