論文の概要: TRYLOCK: Defense-in-Depth Against LLM Jailbreaks via Layered Preference and Representation Engineering
- arxiv url: http://arxiv.org/abs/2601.03300v1
- Date: Tue, 06 Jan 2026 03:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.037189
- Title: TRYLOCK: Defense-in-Depth Against LLM Jailbreaks via Layered Preference and Representation Engineering
- Title(参考訳): TRYLOCK:階層的選好と表現工学によるLDM脱獄対策
- Authors: Scott Thornton,
- Abstract要約: 提案するTRYLOCKは,推論スタックをまたいだ4つのメカニズムを組み合わせた,最初のディフェンス・イン・ディースアーキテクチャである。
Mistral-7B-Instructが249プロンプト攻撃セットに対して評価された場合、TRYLOCKは88.0%の相対的なASR減少を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models remain vulnerable to jailbreak attacks, and single-layer defenses often trade security for usability. We present TRYLOCK, the first defense-in-depth architecture that combines four heterogeneous mechanisms across the inference stack: weight-level safety alignment via DPO, activation-level control via Representation Engineering (RepE) steering, adaptive steering strength selected by a lightweight sidecar classifier, and input canonicalization to neutralize encoding-based bypasses. On Mistral-7B-Instruct evaluated against a 249-prompt attack set spanning five attack families, TRYLOCK achieves 88.0% relative ASR reduction (46.5% to 5.6%), with each layer contributing unique coverage: RepE blocks 36% of attacks that bypass DPO alone, while canonicalization catches 14% of encoding attacks that evade both. We discover a non-monotonic steering phenomenon -- intermediate strength (alpha=1.0) degrades safety below baseline -- and provide mechanistic hypotheses explaining RepE-DPO interference. The adaptive sidecar reduces over-refusal from 60% to 48% while maintaining identical attack defense, demonstrating that security and usability need not be mutually exclusive. We release all components -- trained adapters, steering vectors, sidecar classifier, preference pairs, and complete evaluation methodology -- enabling full reproducibility.
- Abstract(参考訳): 大規模な言語モデルは、ジェイルブレイク攻撃に弱いままであり、単一層防御は、しばしばユーザビリティのためにセキュリティを交換する。
DPOによる重みレベル安全アライメント、Representation Engineering (RepE) ステアリングによるアクティベーションレベル制御、軽量サイドカー分類器によって選択された適応ステアリング強度、エンコードベースのバイパスを中和するための入力正準化である。
Mistral-7B-Instructは、5つの攻撃ファミリーにまたがる249プロンプト攻撃に対して評価され、TRYLOCKは88.0%の相対的なASR削減(46.5%から5.6%)を達成した。
中間強度(アルファ=1.0)はベースライン以下の安全性を低下させ、RepE-DPO干渉を説明する機械的仮説を提供する。
適応型サイドカーは、同一の攻撃防御を維持しながら過剰な拒絶を60%から48%に減らし、セキュリティとユーザビリティは相互に排他的でないことを示した。
トレーニング済みのアダプタ、ステアリングベクター、サイドカー分類器、選好ペア、完全な評価方法など、すべてのコンポーネントをリリースし、完全な再現性を実現しています。
関連論文リスト
- What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - Security Without Detection: Economic Denial as a Primitive for Edge and IoT Defense [0.0]
エコノミック・デニアル・セキュリティ(Economic Denial Security、EDS)は、基本的な非対称性を利用して攻撃を経済的に悪用する、検出に依存しないフレームワークである。
EDSは、適応型計算デコイ駆動インタラクションパズル、エントロピー駆動インタラクションパズル、時間的ストレッチ、帯域幅課税の4つのメカニズムを構成する。
EDSは、従来のアプローチが失敗するリソース制約のある環境に適した、検出非依存の保護を提供する。
論文 参考訳(メタデータ) (2025-12-29T20:28:46Z) - Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Three Minds, One Legend: Jailbreak Large Reasoning Model with Adaptive Stacked Ciphers [14.262681970049172]
Large Reasoning Models (LRMs) は従来のLarge Language Models (LLMs) と比較して優れた論理能力を示している。
SEALは新たなジェイルブレイク攻撃であり、彼らの推論プロセスをオーバーライドし、潜在的な適応アライメントを回避するように設計された適応型暗号化パイプラインを通じてLEMをターゲットにしている。
SEAL は GPT o4-mini の攻撃成功率 80.8% を達成し、最先端のベースラインを27.2% で上回っている。
論文 参考訳(メタデータ) (2025-05-22T05:19:42Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。