論文の概要: Towards Realistic Guarantees: A Probabilistic Certificate for SmoothLLM
- arxiv url: http://arxiv.org/abs/2511.18721v1
- Date: Mon, 24 Nov 2025 03:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.99648
- Title: Towards Realistic Guarantees: A Probabilistic Certificate for SmoothLLM
- Title(参考訳): 現実的保証に向けて:SmoothLLMの確率的証明書
- Authors: Adarsh Kumarappan, Ayushi Mehrotra,
- Abstract要約: SmoothLLMは、ジェイルブレイク攻撃に対する認証保証を提供する。
これは、実際にはほとんど成り立たない厳密なk不安定な仮定に依存している。
より現実的な確率的フレームワーク (k, $varepsilon$)-unstable) を導入し、多様なジェイルブレイク攻撃に対する防御を認証する。
- 参考スコア(独自算出の注目度): 0.7212939068975618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The SmoothLLM defense provides a certification guarantee against jailbreaking attacks, but it relies on a strict `k-unstable' assumption that rarely holds in practice. This strong assumption can limit the trustworthiness of the provided safety certificate. In this work, we address this limitation by introducing a more realistic probabilistic framework, `(k, $\varepsilon$)-unstable,' to certify defenses against diverse jailbreaking attacks, from gradient-based (GCG) to semantic (PAIR). We derive a new, data-informed lower bound on SmoothLLM's defense probability by incorporating empirical models of attack success, providing a more trustworthy and practical safety certificate. By introducing the notion of (k, $\varepsilon$)-unstable, our framework provides practitioners with actionable safety guarantees, enabling them to set certification thresholds that better reflect the real-world behavior of LLMs. Ultimately, this work contributes a practical and theoretically-grounded mechanism to make LLMs more resistant to the exploitation of their safety alignments, a critical challenge in secure AI deployment.
- Abstract(参考訳): SmoothLLMディフェンスは、ジェイルブレイク攻撃に対する認証保証を提供するが、実際にはめったに持たない厳格な 'k-unstable' 仮定に依存している。
この強い仮定は、提供された安全証明書の信頼性を制限することができる。
本研究では,より現実的な確率的フレームワークである '(k, $\varepsilon$)-unstable' を導入し,GCGからセマンティック(PAIR)まで多様なジェイルブレイク攻撃に対する防御を認証する。
我々は、SmoothLLMの防衛確率に基づいて、より信頼性が高く実用的な安全証明書を提供することにより、新たなデータインフォームドローバウンドを導出する。
我々のフレームワークは、(k, $\varepsilon$)-unstableの概念を導入することで、実践者に実行可能な安全保証を提供し、LLMの現実世界の振る舞いをよりよく反映した認定基準を設定することができる。
最終的に、この研究は、LLMを安全アライメントの悪用に抵抗する、実用的で理論的に基礎的なメカニズムに寄与する。
関連論文リスト
- SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - EASE: Practical and Efficient Safety Alignment for Small Language Models [4.839980912290382]
小型言語モデル(SLM)は、エッジデバイスにますますデプロイされ、安全性の整合性は重要でありながら困難である。
小型ランガグモデルに対する実用的で効率的な安全アライメントを実現するための新しいフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2025-11-09T19:46:54Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval [25.17143802138141]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱であり、敵は危険または非倫理的な反応を引き起こすために慎重に設計されたプロンプトを悪用する。
安全コンテキスト検索(SCR, Safety Context Retrieval)は,LLMの脱獄防止のためのスケーラブルで堅牢な安全保護パラダイムである。
論文 参考訳(メタデータ) (2025-05-21T16:58:14Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。