論文の概要: Untargeted Jailbreak Attack
- arxiv url: http://arxiv.org/abs/2510.02999v1
- Date: Fri, 03 Oct 2025 13:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.40187
- Title: Untargeted Jailbreak Attack
- Title(参考訳): 未ターゲットの脱獄攻撃
- Authors: Xinzhe Huang, Wenjing Hu, Tianhang Zheng, Kedong Xiu, Xiaojun Jia, Di Wang, Zhan Qin, Kui Ren,
- Abstract要約: 勾配に基づく大規模言語モデル(LLM)に対するジェイルブレイク攻撃
本稿では,事前定義されたパターンを強制することなく,安全でない応答を誘発することを目的とした,最初の勾配に基づく非目標ジェイルブレイク攻撃(UJA)を提案する。
大規模な評価は、textscUJAが最近の安全対応LCMに対して80%以上の攻撃成功率を達成することを実証している。
- 参考スコア(独自算出の注目度): 42.94437968995701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing gradient-based jailbreak attacks on Large Language Models (LLMs), such as Greedy Coordinate Gradient (GCG) and COLD-Attack, typically optimize adversarial suffixes to align the LLM output with a predefined target response. However, by restricting the optimization objective as inducing a predefined target, these methods inherently constrain the adversarial search space, which limit their overall attack efficacy. Furthermore, existing methods typically require a large number of optimization iterations to fulfill the large gap between the fixed target and the original model response, resulting in low attack efficiency. To overcome the limitations of targeted jailbreak attacks, we propose the first gradient-based untargeted jailbreak attack (UJA), aiming to elicit an unsafe response without enforcing any predefined patterns. Specifically, we formulate an untargeted attack objective to maximize the unsafety probability of the LLM response, which can be quantified using a judge model. Since the objective is non-differentiable, we further decompose it into two differentiable sub-objectives for optimizing an optimal harmful response and the corresponding adversarial prompt, with a theoretical analysis to validate the decomposition. In contrast to targeted jailbreak attacks, UJA's unrestricted objective significantly expands the search space, enabling a more flexible and efficient exploration of LLM vulnerabilities.Extensive evaluations demonstrate that \textsc{UJA} can achieve over 80\% attack success rates against recent safety-aligned LLMs with only 100 optimization iterations, outperforming the state-of-the-art gradient-based attacks such as I-GCG and COLD-Attack by over 20\%.
- Abstract(参考訳): Greedy Coordinate Gradient (GCG) や COLD-Attack のような既存の勾配に基づく大規模言語モデル(LLM)に対するジェイルブレイク攻撃は、通常、逆サフィックスを最適化して、LLM出力を予め定義されたターゲット応答と整合させる。
しかし、最適化対象を事前定義された目標の誘導として制限することにより、これらの手法は本質的に敵の探索空間を制約し、攻撃効果の全体を制限する。
さらに、既存の手法では、固定されたターゲットと元のモデル応答の間の大きなギャップを満たすために、多くの最適化イテレーションを必要とするため、攻撃効率は低い。
目標とする脱獄攻撃の限界を克服するために、事前に定義されたパターンを強制することなく、安全でない応答を誘発することを目的とした、最初の勾配に基づく脱獄攻撃(UJA)を提案する。
具体的には,LLM応答の不安全確率を最大化するために標的外攻撃目標を定式化し,判定モデルを用いて定量化する。
目的が微分不可能であるため、最適有害応答と対応する逆数プロンプトを最適化するための2つの微分可能なサブオブジェクトに分解を分解し、その分解を理論的に検証する。
対象のジェイルブレイク攻撃とは対照的に、UJAの制約のない目的は検索空間を大幅に拡張し、より柔軟で効率的なLLM脆弱性の探索を可能にし、より広範囲な評価により、最近の安全に配慮したLLMに対して、100回の最適化イテレーションで80%以上の攻撃成功率を達成でき、I-GCGやCOLD-Attackのような最先端の勾配に基づく攻撃を20倍に上回る結果となった。
関連論文リスト
- Dynamic Target Attack [47.7573932414231]
敵のプロンプトを最適化するためのターゲットとして, LLM 自身の応答に依存する新しいジェイルブレイクフレームワークである Dynamic Target Attack (DTA) を提案する。
ホワイトボックス設定では、DTAは平均攻撃成功率(ASR)を87%以上を達成するために200の最適化イテレーションしか必要としない。
ブラックボックス設定では、DTAはブラックボックスターゲットモデルであるLlama-3-70B-Instructに対して85%のASRを達成した。
論文 参考訳(メタデータ) (2025-10-02T16:40:51Z) - Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - VERA: Variational Inference Framework for Jailbreaking Large Language Models [15.03256687264469]
最先端のLDMへのAPIのみアクセスは、効果的なブラックボックスジェイルブレイクメソッドの必要性を強調している。
VERA: variational infErence fRamework for jAilbreakingを紹介する。
論文 参考訳(メタデータ) (2025-06-27T22:22:00Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。