Fugu-MT 論文翻訳(概要): Jailbreaking to Jailbreak

論文の概要: Jailbreaking to Jailbreak

arxiv url: http://arxiv.org/abs/2502.09638v2
Date: Thu, 29 May 2025 06:12:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 15:42:33.195922
Title: Jailbreaking to Jailbreak
Title（参考訳）: ジェイルブレイクからジェイルブレイクへ
Authors: Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang,
Abstract要約: 大型言語モデル(LLM)は有害な内容を引き出すために他のモデルをレッドチーム(例えばジェイルブレイク)に使用することができる。以前の作業ではオープンウェイトモデルやプライベートアンプレッショルドモデルを使用してジェイルブレイクを行うのが一般的だったが、強力なLCM(例えばOpenAI o3)の拒絶(例えばOpenAI o3)はジェイルブレイクを支援することを拒否したため、我々の作業はブラックボックスのLSMを攻撃者に転換した(ほとんど)。その結果、J$(jailbreak-to-jailbreak)攻撃者は、様々な戦略を使用してターゲットモデルの保護を効果的にジェイルブレイクすることができる。
参考スコア（独自算出の注目度）: 7.462595078160592
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) can be used to red team other models (e.g. jailbreaking) to elicit harmful contents. While prior works commonly employ open-weight models or private uncensored models for doing jailbreaking, as the refusal-training of strong LLMs (e.g. OpenAI o3) refuse to help jailbreaking, our work turn (almost) any black-box LLMs into attackers. The resulting $J_2$ (jailbreaking-to-jailbreak) attackers can effectively jailbreak the safeguard of target models using various strategies, both created by themselves or from expert human red teamers. In doing so, we show their strong but under-researched jailbreaking capabilities. Our experiments demonstrate that 1) prompts used to create $J_2$ attackers transfer across almost all black-box models; 2) an $J_2$ attacker can jailbreak a copy of itself, and this vulnerability develops rapidly over the past 12 months; 3) reasong models, such as Sonnet-3.7, are strong $J_2$ attackers compared to others. For example, when used against the safeguard of GPT-4o, $J_2$ (Sonnet-3.7) achieves 0.975 attack success rate (ASR), which matches expert human red teamers and surpasses the state-of-the-art algorithm-based attacks. Among $J_2$ attackers, $J_2$ (o3) achieves highest ASR (0.605) against Sonnet-3.5, one of the most robust models.
Abstract（参考訳）: 大きな言語モデル(LLM)は、有害なコンテンツを引き出すために他のモデルをレッドチーム(例えばジェイルブレイク)に使用することができる。従来の作業では、オープンウェイトモデルやプライベートな非検閲モデルを使用してジェイルブレイクを行うのが一般的でしたが、強力なLDM(eg OpenAI o3)の拒否トレーニングは、ジェイルブレイクを支援することを拒否したため、当社の作業は(ほとんど)ブラックボックスのLSMをアタッカーに回しました。結果として生じる$J_2$(jailbreak-to-jailbreak)アタッカーは、自分自身または専門家のレッドチームメンバーによって作成されたさまざまな戦略を使用して、ターゲットモデルの保護を効果的にジェイルブレイクすることができる。そうすることで、強いが、調査されていないジェイルブレイク能力を示す。私たちの実験は 1) ほとんどすべてのブラックボックスモデルにまたがる、$J_2$アタッカーの転送に使用されるプロンプト。 2)$J_2$攻撃者は自身のコピーをジェイルブレイクでき、この脆弱性は過去12ヶ月で急速に発生します。 3) Sonnet-3.7のような推論モデルは、他のモデルと比べて強い$J_2$攻撃である。例えば、GPT-4oの安全を守るために使われる場合、$J_2$ (Sonnet-3.7) は 0.975 の攻撃成功率 (ASR) を達成する。 J_2$攻撃者のうち、$J_2$ (o3) は最も堅牢なモデルである Sonnet-3.5 に対して最高 ASR (0.605) を達成する。

関連論文リスト

One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。 ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文参考訳（メタデータ） (2025-05-23T08:02:38Z)
JBFuzz: Jailbreaking LLMs Efficiently and Effectively Using Fuzzing [2.3822909465087228]
JBFuzzは、ソフトウェアのバグや脆弱性を検出するファジングの成功にインスパイアされている。 JBFuzzは、様々な有害・非倫理的な質問に対して全てのLSMを投獄し、平均的な攻撃成功率は99%である。
論文参考訳（メタデータ） (2025-03-12T01:52:17Z)
Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
本稿では,有害なコンテンツを生成するために,大規模言語モデル(LLM)を誘導する新しいジェイルブレイク手法を提案する。ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。本稿では,SIJ に対抗するためのセルフリマインダーキー (Self-Reminder-Key) という簡単な防御手法を提案し,その有効性を実証する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文参考訳（メタデータ） (2024-10-31T01:55:33Z)
IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet [11.83818222565186]
マルチターンヒトジェイルブレイクによって重大な脆弱性が発見され,HarmBenchの攻撃成功率(ASR)は70%を超えた。我々はこれらの結果を537個のマルチターンジェイルブレイクにまたがる2,912個のプロンプトのデータセットであるMHJ(Multi-Turn Human Jailbreaks)にコンパイルする。
論文参考訳（メタデータ） (2024-08-27T17:33:30Z)
BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文参考訳（メタデータ） (2024-08-17T04:43:26Z)
h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。 GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文参考訳（メタデータ） (2023-11-15T17:17:39Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。