論文の概要: Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.11149v1
- Date: Wed, 11 Mar 2026 17:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.548137
- Title: Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるジェイルブレイク攻撃の系統的スケーリング解析
- Authors: Xiangwen Wang, Ananth Balashankar, Varun Chandrasekaran,
- Abstract要約: 大規模な言語モデルは、Jailbreak攻撃に対して脆弱なままですが、ジェイルブレイクの成功が、メソッド、モデルファミリー、害タイプを越えて攻撃者の努力によってどのようにスケールするかに関して、体系的な理解はいまだにありません。
我々は、各攻撃を計算バウンド最適化手順として扱い、共有FLOPs軸の進捗を測定することにより、ジェイルブレイクのスケーリング法フレームワークを開始する。
組織的評価は、最適化に基づく攻撃、自己抑制促進、サンプリングに基づく選択、遺伝的最適化を含む4つの代表的なジェイルブレイクパラダイムにまたがる。
- 参考スコア(独自算出の注目度): 15.425738252512362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models remain vulnerable to jailbreak attacks, yet we still lack a systematic understanding of how jailbreak success scales with attacker effort across methods, model families, and harm types. We initiate a scaling-law framework for jailbreaks by treating each attack as a compute-bounded optimization procedure and measuring progress on a shared FLOPs axis. Our systematic evaluation spans four representative jailbreak paradigms, covering optimization-based attacks, self-refinement prompting, sampling-based selection, and genetic optimization, across multiple model families and scales on a diverse set of harmful goals. We investigate scaling laws that relate attacker budget to attack success score by fitting a simple saturating exponential function to FLOPs--success trajectories, and we derive comparable efficiency summaries from the fitted curves. Empirically, prompting-based paradigms tend to be the most compute-efficient compared to optimization-based methods. To explain this gap, we cast prompt-based updates into an optimization view and show via a same-state comparison that prompt-based attacks more effectively optimize in prompt space. We also show that attacks occupy distinct success--stealthiness operating points with prompting-based methods occupying the high-success, high-stealth region. Finally, we find that vulnerability is strongly goal-dependent: harms involving misinformation are typically easier to elicit than other non-misinformation harms.
- Abstract(参考訳): 大規模な言語モデルは、Jailbreak攻撃に対して脆弱なままですが、ジェイルブレイクの成功がメソッド、モデルファミリー、害タイプを越えて攻撃者によってどのようにスケールされるのか、体系的な理解はいまだにありません。
我々は、各攻撃を計算バウンド最適化手順として扱い、共有FLOPs軸の進捗を測定することにより、ジェイルブレイクのスケーリング法フレームワークを開始する。
組織的評価は、最適化に基づく攻撃、自己修復促進、サンプリングに基づく選択、遺伝的最適化の4つの代表的なジェイルブレイクパラダイムにまたがる。
本研究では, FLOPs-success trajectories に単純な飽和指数関数を組み込むことにより, 攻撃者予算と攻撃成功スコアを関連づけるスケーリング法について検討し, 適合曲線から同等の効率の要約を導出する。
経験的に、プロンプトベースのパラダイムは最適化ベースの手法と比較して最も計算効率が高い傾向にある。
このギャップを説明するために、我々はプロンプトベースの更新を最適化ビューに投入し、プロンプトベースの攻撃をより効果的にプロンプト空間で最適化する同状態比較を通して示す。
また、攻撃が成功率の異なる運用ポイントを占めることを示し、高い成功率、高い利益率の領域を占拠するプロンプトベースの方法を示す。
最後に、脆弱性は目標に依存している。誤情報を含む害は、通常、他の非誤情報害よりも容易に引き出すことができる。
関連論文リスト
- TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models [15.495882533240833]
大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めたが、ジェイルブレイク攻撃には弱いままである。
本稿では,新しい最適化手法であるTAO-Attackを提案する。
TAO-Attackは最先端の手法を一貫して上回り、攻撃の成功率を高め、特定のシナリオで100%に達する。
論文 参考訳(メタデータ) (2026-03-03T15:25:53Z) - Universal and Transferable Adversarial Attack on Large Language Models Using Exponentiated Gradient Descent [1.1187085721899017]
大規模言語モデル(LLM)は、ますます重要なアプリケーションにデプロイされている。
LLMは、ユーザプロンプトに付加された対逆トリガーによって実現されたジェイルブレイク攻撃に対して脆弱なままである。
逆接接尾辞トークンの緩和されたワンホット符号化を直接最適化する本質的な最適化手法を提案する。
論文 参考訳(メタデータ) (2025-08-20T17:03:32Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Preference Poisoning Attacks on Reward Model Learning [47.00395978031771]
ペア比較による報酬モデル学習における脆弱性の性質と範囲について検討する。
本稿では,これらの攻撃に対するアルゴリズム的アプローチのクラスとして,勾配に基づくフレームワークと,ランク・バイ・ディスタンス手法のいくつかのバリエーションを提案する。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。