論文の概要: Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment
- arxiv url: http://arxiv.org/abs/2602.01587v1
- Date: Mon, 02 Feb 2026 03:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.873146
- Title: Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment
- Title(参考訳): 騒音アライメントによるLLM脱獄防止フレームワーク
- Authors: Zehua Cheng, Jianwei Yang, Wei Dai, Jiahao Sun,
- Abstract要約: 大規模言語モデル(LLM)は、GCGのような経験的防御を簡単に回避できる適応型ジェイルブレイクに対して脆弱なままである。
本研究では,安全保証をシングルパス推論からアンサンブルの統計的安定性にシフトさせる,証明可能なロバスト性のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.06683377953812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) remain vulnerable to adaptive jailbreaks that easily bypass empirical defenses like GCG. We propose a framework for certifiable robustness that shifts safety guarantees from single-pass inference to the statistical stability of an ensemble. We introduce Certified Semantic Smoothing (CSS) via Stratified Randomized Ablation, a technique that partitions inputs into immutable structural prompts and mutable payloads to derive rigorous lo norm guarantees using the Hypergeometric distribution. To resolve performance degradation on sparse contexts, we employ Noise-Augmented Alignment Tuning (NAAT), which transforms the base model into a semantic denoiser. Extensive experiments on Llama-3 show that our method reduces the Attack Success Rate of gradient-based attacks from 84.2% to 1.2% while maintaining 94.1% benign utility, significantly outperforming character-level baselines which degrade utility to 74.3%. This framework provides a deterministic certificate of safety, ensuring that a model remains robust against all adversarial variants within a provable radius.
- Abstract(参考訳): 大規模言語モデル(LLM)は、GCGのような経験的防御を簡単に回避できる適応型ジェイルブレイクに対して脆弱なままである。
本研究では,安全保証をシングルパス推論からアンサンブルの統計的安定性にシフトさせる,証明可能なロバスト性のためのフレームワークを提案する。
階層化ランダム化アブレーション(Stratified Randomized Ablation)は,入力を不変な構造的プロンプトと可変ペイロードに分割し,ハイパージオメトリ分布を用いた厳密なロノルム保証を導出する手法である。
スパース・コンテクストの性能劣化を解決するため,ノイズ・アグリメント・アライメント・チューニング(NAAT)を導入し,ベースモデルをセマンティック・デノイザに変換する。
Llama-3の大規模実験により, グラデーションベース攻撃の攻撃成功率を84.2%から1.2%に低下させるとともに, 94.1%の便益を維持し, 有効性を74.3%に低下させるキャラクタレベルベースラインを著しく上回った。
この枠組みは安全性の決定論的証明を提供し、モデルが証明可能な半径内のすべての逆変量に対して堅牢であることを保証する。
関連論文リスト
- Sequential Subspace Noise Injection Prevents Accuracy Collapse in Certified Unlearning [28.628342735283752]
差分プライバシーに基づく認定されていない未学習は、強い保証を提供するが、ほとんど実践的ではない。
本稿では,パラメータ空間のサブスペース間でノイズ予算を分散する逐次ノイズスケジューリングを提案する。
ノイズの多い微調整の分析をサブスペース設定に拡張し、同じ$(varepsilon,)$プライバシー予算が維持されていることを証明します。
論文 参考訳(メタデータ) (2026-01-08T17:23:13Z) - ProGuard: Towards Proactive Multimodal Safeguard [48.89789547707647]
ProGuardは視覚言語プロアクティブガードであり、アウト・オブ・ディストリビューション(OOD)の安全性リスクを特定し記述する。
まず,2次安全ラベルとリスクカテゴリの両方を付加した87Kサンプルのモダリティバランスデータセットを構築した。
次に、強化学習を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
論文 参考訳(メタデータ) (2025-12-29T16:13:23Z) - Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation [13.509767769174422]
大規模な言語モデルをトレーニングし、有害な要求を拒否するためには、安全性の調整が不可欠である。
Low-Rank Adaptation (LoRA) は、安全ベンチマークにおける完全な微調整と強化学習を一貫して過小評価している。
このギャップに対処するため、SAILS (Safety Alignment via Interpretable Low-rank Subspace)を提案する。
論文 参考訳(メタデータ) (2025-12-29T07:39:49Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment [4.181987990532721]
ガードレールモデルやアライメントトレーニングなど、AIの安全性を保証するための既存のパラダイムは、推論効率または開発柔軟性を損なうことが多い。
タスク最適化ベースモデルから安全性特異的な計算を分離することで、これらの課題に対処する新しいフレームワークであるDisentangled Safety Adapters (DSA) を導入する。
DSAは、ベースモデルの内部表現を活用する軽量アダプタを使用し、推論コストに最小限の影響を伴って、多種多様なフレキシブルな安全性機能を実現する。
論文 参考訳(メタデータ) (2025-05-30T19:11:52Z) - Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints [81.14852921721793]
本研究の目的は,勾配に基づくジェイルブレイク手法の伝達可能性を理解し,向上することである。
本稿では,トランスファービリティを解明し,過剰な制約を識別するための新しい概念的枠組みを提案する。
提案手法は, 安全レベルを18.4%から50.3%に変化させたターゲットモデル全体のトランスファー攻撃成功率(T-ASR)を増加させる。
論文 参考訳(メタデータ) (2025-02-25T07:47:41Z) - Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception [0.4124847249415279]
安全クリティカルな認識システムは、安全を維持するために確実な不確実性定量化と原則化された禁制機構を必要とする。
本稿では,統計的に保証された不確実性推定を提供するとともに,リスクの高いシナリオにおいて選択的な予測を可能にする,新しいデュアルスレッド整合化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T04:45:31Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。