論文の概要: Guaranteed Jailbreaking Defense via Disrupt-and-Rectify Smoothing
- arxiv url: http://arxiv.org/abs/2605.10582v1
- Date: Mon, 11 May 2026 13:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.864549
- Title: Guaranteed Jailbreaking Defense via Disrupt-and-Rectify Smoothing
- Title(参考訳): 乱暴なスムースティングで脱獄を防げる
- Authors: Zheng Lin, Zhenxing Niu, Haoxuan Ji, Haichang Gao,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に対する防御手法を提案する。
2段階のプロンプト処理スキームを統合し、まず入力プロンプトを乱し、次に従来のスムーズな防御フレームワークに修正する。
我々のアプローチは、確立された攻撃シナリオと適応的な攻撃シナリオの両方の下で、トークンレベルとプロンプトレベルの両方のジェイルブレイク攻撃を防御できる。
- 参考スコア(独自算出の注目度): 14.717187950347986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a guaranteed defense method for large language models (LLMs) to safeguard against jailbreaking attacks. Drawing inspiration from the denoised-smoothing approach in the adversarial defense domain, we propose a novel smoothing-based defense method, termed Disrupt-and-Rectify Smoothing (DR-Smoothing). Specifically, we integrate a two-stage prompt processing scheme-first disrupting the input prompt, then rectifying it-into the conventional smoothing defense framework. This disrupt-and-rectify approach improves upon previous disrupt-only approaches by restoring out-of-distribution disrupted prompts to an in-distribution form, thereby reducing the risk of unpredictable LLM behavior. In addition, this two-stage scheme offers a distinct advantage in striking a balance between harmlessness and helpfulness in jailbreaking defense. Notably, we present a theoretical analysis for generic smoothing framework, offering a tight bound for the defense success probability and the requirements on the disruption strength. Our approach can defend against both token-level and prompt-level jailbreaking attacks, under both established and adaptive attacking scenarios. Extensive experiments demonstrate that our approach surpasses current state-of-the-art defense methods in terms of both harmlessness and helpfulness.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)に対する防御手法を提案する。
本研究では, 対角防御領域における非正規化平滑化手法の着想を得て, 新規な平滑化型防御手法であるDisrupt-and-Rectify Smoothing(DR-Smoothing)を提案する。
具体的には、2段階のプロンプト処理スキームを統合し、まず入力プロンプトを乱し、次に従来のスムーズな防御フレームワークに修正する。
このディスラプション・アンド・修正アプローチは、ディスラプションのアウト・オブ・ディスラプションのプロンプトを非ディスラプション形式に復元することで、従来のディスラプションのみのアプローチを改善し、予測不可能なLCMの挙動のリスクを低減する。
さらに、この2段階のスキームは、脱獄防衛における無害性と役立たずのバランスを崩すという、明確な利点を提供する。
特に, 一般的な平滑化フレームワークの理論解析を行い, 防御成功確率と破壊強度の要件に厳密な拘束力を与える。
我々のアプローチは、確立された攻撃シナリオと適応的な攻撃シナリオの両方の下で、トークンレベルとプロンプトレベルの両方のジェイルブレイク攻撃を防御できる。
広範囲にわたる実験により,本手法は無害性と有用性の両方の観点から,現在最先端の防御手法を超越していることが示された。
関連論文リスト
- TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking [52.72486831074384]
サフィックスベースのジェイルブレイク攻撃は、敵のサフィックス、すなわち短いトークンシーケンスを付加し、LLMを安全でない出力にステアリングする。
提案するTrapSuffixは,推論パイプラインを変更することなく,トラップアラインな動作をベースモデルに注入する,軽量な微調整手法である。
様々なサフィックスベースのジェイルブレイク設定で、TrapSuffixは平均攻撃成功率を0.01%以下に下げ、平均追跡成功率87.9%を達成する。
論文 参考訳(メタデータ) (2026-02-06T11:43:56Z) - Bidirectional Intention Inference Enhances LLMs' Defense Against Multi-Turn Jailbreak Attacks [18.3415330691504]
ジェイルブレイク」攻撃は、安全アライメントメカニズムをバイパスする敵のプロンプトを悪用する。
この課題に対処するために,Bi Intention Inference Defense (BIID)を提案する。
BIIDは、フォワード要求に基づく意図推論と後方応答に基づく意図の振り返りを統合する。
論文 参考訳(メタデータ) (2025-09-25T13:29:48Z) - Activation-Guided Local Editing for Jailbreaking Attacks [33.13949817155855]
トークンレベルのジェイルブレイク攻撃は、しばしば不整合または読めない入力を生み出す。
即時攻撃はスケーラビリティに欠けており、手作業や人間の創造性に大きく依存している。
本稿では,これらのアプローチの利点を組み合わせた,簡潔で効果的な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T11:52:24Z) - Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval [25.17143802138141]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱であり、敵は危険または非倫理的な反応を引き起こすために慎重に設計されたプロンプトを悪用する。
安全コンテキスト検索(SCR, Safety Context Retrieval)は,LLMの脱獄防止のためのスケーラブルで堅牢な安全保護パラダイムである。
論文 参考訳(メタデータ) (2025-05-21T16:58:14Z) - LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。
ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文 参考訳(メタデータ) (2025-04-02T09:21:26Z) - ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。