論文の概要: Jailbreaking to Jailbreak
- arxiv url: http://arxiv.org/abs/2502.09638v1
- Date: Sun, 09 Feb 2025 20:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 19:47:35.468735
- Title: Jailbreaking to Jailbreak
- Title(参考訳): ジェイルブレイクからジェイルブレイクへ
- Authors: Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang,
- Abstract要約: そこで本研究では,ヒトが脱獄訓練されたLDMを脱獄し,自身や他のLDMを脱獄させる,新しいLDM-as-red-teamerアプローチを提案する。
私たちの仕事は、レッドチームへの戦略的アプローチを導入し、人間のレッドチームからインスピレーションを得ています。
- 参考スコア(独自算出の注目度): 7.462595078160592
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Refusal training on Large Language Models (LLMs) prevents harmful outputs, yet this defense remains vulnerable to both automated and human-crafted jailbreaks. We present a novel LLM-as-red-teamer approach in which a human jailbreaks a refusal-trained LLM to make it willing to jailbreak itself or other LLMs. We refer to the jailbroken LLMs as $J_2$ attackers, which can systematically evaluate target models using various red teaming strategies and improve its performance via in-context learning from the previous failures. Our experiments demonstrate that Sonnet 3.5 and Gemini 1.5 pro outperform other LLMs as $J_2$, achieving 93.0% and 91.0% attack success rates (ASRs) respectively against GPT-4o (and similar results across other capable LLMs) on Harmbench. Our work not only introduces a scalable approach to strategic red teaming, drawing inspiration from human red teamers, but also highlights jailbreaking-to-jailbreak as an overlooked failure mode of the safeguard. Specifically, an LLM can bypass its own safeguards by employing a jailbroken version of itself that is willing to assist in further jailbreaking. To prevent any direct misuse with $J_2$, while advancing research in AI safety, we publicly share our methodology while keeping specific prompting details private.
- Abstract(参考訳): LLM(Large Language Models)の拒絶訓練は有害な出力を防ぐが、この防御は自動化されたものと人為的なジェイルブレイクの両方に対して脆弱である。
そこで本研究では,ヒトが脱獄訓練されたLDMを脱獄し,自身や他のLDMを脱獄させる,新しいLDM-as-red-teamerアプローチを提案する。
我々はjailbroken LLMを$J_2$攻撃者と呼び、様々なレッドチーム戦略を用いてターゲットモデルを体系的に評価し、以前の障害からコンテキスト内学習によってそのパフォーマンスを向上させる。
実験の結果,Sonnet 3.5 と Gemini 1.5 Pro は他の LLM を$J_2$ で上回り,それぞれ 93.0% と 91.0% の攻撃成功率 (ASRs) を Harmbench 上の GPT-4o と比較した。
私たちの仕事は、戦略的なレッドチーム編成にスケーラブルなアプローチを導入し、人間のレッドチームからインスピレーションを得ただけでなく、セーフガードの見過ごされた障害モードとしてジェイルブレイクとジェイルブレイクを強調しています。
具体的には、LLMは、脱獄のさらなる支援を希望する自身のジェイルブレイク版を採用することで、自身の安全を回避できる。
AI安全性の研究を進めながら、$J_2$の直接的な誤用を防ぐために、私たちは、詳細を非公開にしながら、私たちの方法論を公開しています。
関連論文リスト
- JBFuzz: Jailbreaking LLMs Efficiently and Effectively Using Fuzzing [2.3822909465087228]
JBFuzzは、ソフトウェアのバグや脆弱性を検出するファジングの成功にインスパイアされている。
JBFuzzは、様々な有害・非倫理的な質問に対して全てのLSMを投獄し、平均的な攻撃成功率は99%である。
論文 参考訳(メタデータ) (2025-03-12T01:52:17Z) - Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。
LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
本稿では,有害なコンテンツを生成するために,大規模言語モデル(LLM)を誘導する新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJ に対抗するためのセルフリマインダーキー (Self-Reminder-Key) という簡単な防御手法を提案し,その有効性を実証する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。