論文の概要: Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks
- arxiv url: http://arxiv.org/abs/2510.21910v1
- Date: Fri, 24 Oct 2025 17:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.471923
- Title: Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks
- Title(参考訳): Adversarial Déjà Vu: Jailbreak Dictionary Learning for strong more generalization to unseen Attacks
- Authors: Mahavir Dabas, Tran Huynh, Nikhil Reddy Billa, Jiachen T. Wang, Peng Gao, Charith Peris, Yao Ma, Rahul Gupta, Ming Jin, Prateek Mittal, Ruoxi Jia,
- Abstract要約: 新たなジェイルブレイクに対する防御は、AIの安全性にとって重要な課題である。
本稿では,目に見えないジェイルブレイクに対する堅牢性向上のための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 57.08407099520887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models remain vulnerable to jailbreak attacks that bypass safety guardrails to elicit harmful outputs. Defending against novel jailbreaks represents a critical challenge in AI safety. Adversarial training -- designed to make models robust against worst-case perturbations -- has been the dominant paradigm for adversarial robustness. However, due to optimization challenges and difficulties in defining realistic threat models, adversarial training methods often fail on newly developed jailbreaks in practice. This paper proposes a new paradigm for improving robustness against unseen jailbreaks, centered on the Adversarial D\'ej\`a Vu hypothesis: novel jailbreaks are not fundamentally new, but largely recombinations of adversarial skills from previous attacks. We study this hypothesis through a large-scale analysis of 32 attack papers published over two years. Using an automated pipeline, we extract and compress adversarial skills into a sparse dictionary of primitives, with LLMs generating human-readable descriptions. Our analysis reveals that unseen attacks can be effectively explained as sparse compositions of earlier skills, with explanatory power increasing monotonically as skill coverage grows. Guided by this insight, we introduce Adversarial Skill Compositional Training (ASCoT), which trains on diverse compositions of skill primitives rather than isolated attack instances. ASCoT substantially improves robustness to unseen attacks, including multi-turn jailbreaks, while maintaining low over-refusal rates. We also demonstrate that expanding adversarial skill coverage, not just data scale, is key to defending against novel attacks. \textcolor{red}{\textbf{Warning: This paper contains content that may be harmful or offensive in nature.
- Abstract(参考訳): 大規模な言語モデルは、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
新たなジェイルブレイクに対する防御は、AIの安全性にとって重要な課題である。
最悪の場合の摂動に対してモデルを堅牢にするために設計された、敵の訓練は、敵の堅牢性にとって支配的なパラダイムである。
しかし、現実的な脅威モデルを定義する際の最適化の課題と困難さのため、敵の訓練手法は、しばしば新しく開発されたジェイルブレイクで失敗する。
本稿では,新しいジェイルブレイクは基本的に新しいものではなく,以前の攻撃による敵のスキルの組み直しを主眼とした,目に見えないジェイルブレイクに対する堅牢性向上のための新たなパラダイムを提案する。
本仮説は,2年間にわたる32件の攻撃論文の大規模解析を通じて検討した。
自動パイプラインを用いて,人間の読みやすい記述を生成するLLMを用いて,敵のスキルをプリミティブのスパース辞書に抽出し,圧縮する。
分析の結果,スキルカバレッジの増大に伴い説明力は単調に増加し,未確認攻撃は早期スキルのスパース構成として効果的に説明できることが判明した。
この知見に導かれたAsCoT(Adversarial Skill Compositional Training)では,個別の攻撃事例ではなく,多様なスキルプリミティブの構成を訓練する。
ASCoTは、マルチターンジェイルブレイクを含む、目に見えない攻撃に対するロバスト性を大幅に改善し、低遅延率を維持している。
また、データスケールだけでなく、敵のスキルカバレッジを拡大することが、新たな攻撃に対する防御の鍵であることも示しています。
textcolor{red}{\textbf{Warning: 本論文は、自然界で有害または攻撃的なコンテンツを含む。
関連論文リスト
- The Dual Power of Interpretable Token Embeddings: Jailbreaking Attacks and Defenses for Diffusion Model Unlearning [17.502599682445382]
本稿では,解釈可能なアタックトークンの埋め込みを学習するアタック手法を提案する。
攻撃トークンの埋め込みは、テキストプロンプト、初期ノイズ、未学習モデル間で転送可能である。
我々は、未学習モデルと既存のジェイルブレイク攻撃の両方から保護する防衛方法を開発した。
論文 参考訳(メタデータ) (2025-04-30T04:33:43Z) - Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking [14.541887120849687]
緊急エンジニアリングによる ジェイルブレイク攻撃は 重大な脅威になっています
本研究では,防衛閾値決定(DTD)の概念を導入し,LCMの良質な世代による潜在的安全性への影響を明らかにした。
本稿では,悪質な意図とは逆の意味の良質なインプットを構築するために,「セマンティック・リバーサル」戦略を用いたSugar-Coated Poison攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-08T03:57:09Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。