論文の概要: NeuroArmor: Safe-Variant-Guided Representation Consistency for Selective Re-Anchoring in Jailbreak Defense
- arxiv url: http://arxiv.org/abs/2606.03486v1
- Date: Tue, 02 Jun 2026 11:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.953279
- Title: NeuroArmor: Safe-Variant-Guided Representation Consistency for Selective Re-Anchoring in Jailbreak Defense
- Title(参考訳): NeuroArmor: ジェイルブレイク防御における安全なバリアント誘導表現の一貫性
- Authors: Zhongyang Lin, Ziran Zhao, Feifei Zhai, Pengyuan Liu,
- Abstract要約: 我々は,ローカルな安全基準として,プロンプト固有の安全な変種を利用する,ホワイトボックスのランタイムディフェンスであるNeuroArmorを提案する。
NeuroArmorは、悪意のある攻撃成功率(ASR)を41.56%から1.57%に下げ、共有良性プールにおける良性偽陽性率(FPR)を30.26%から22.05%に下げる。
全体として、NeuroArmorは、プロンプト固有の一貫性チェック、ルーティング、選択的介入を組み合わせることで、ジェイルブレイク防御のためのより効果的な実行戦略を提供する。
- 参考スコア(独自算出の注目度): 2.684088637511253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models remain vulnerable to jailbreak attacks that hide harmful intent behind seemingly ordinary requests such as role-play, translation, encoding, adversarial suffixes, and multi-turn buildup. Existing defenses still struggle to handle these attacks without over-blocking benign but sensitive requests, partly because they often apply the same action to every prompt and therefore fail to balance safety and helpfulness. We propose NeuroArmor, a white-box runtime defense that uses prompt-specific safe variants as a local safety reference for deciding when intervention is needed and, once triggered, as safe targets for intervention. For each prompt, NeuroArmor builds K safe variants, compares the prompt state against this local safe reference in hidden-state space, and routes anomalies either to a refusal branch for malicious prompts or to a helpful recovery branch for borderline benign prompts. On Llama-3-8B-Instruct, NeuroArmor reduces malicious attack success rate (ASR) from 41.56% to 1.57% while lowering benign false positive rate (FPR) on the shared benign pool from 30.26% to 22.05%; matched baselines remain substantially weaker on this trade-off. External-judge and manual behavioral evaluations further show that the remaining non-blocked outputs are much less likely to be operationally harmful. Overall, NeuroArmor provides a more effective runtime strategy for jailbreak defense by combining prompt-specific consistency checking, routing, and selective intervention.
- Abstract(参考訳): 大きな言語モデルは、ロールプレイ、翻訳、エンコーディング、敵の接尾辞、マルチターンビルドのような一見普通の要求の背後にある有害な意図を隠すジェイルブレイク攻撃に弱いままである。
既存の防衛は、良心的かつ敏感な要求を過剰にブロックすることなくこれらの攻撃に対処するのに苦慮している。
我々は、介入の安全目標として、いつ介入が必要か、そして一度トリガされるかを決定するためのローカルな安全基準として、プロンプト固有の安全な変種を使用する、ホワイトボックスのランタイムディフェンスであるNeuroArmorを提案する。
それぞれのプロンプトに対して、NeuroArmorはKの安全な変種を構築し、隠れた状態空間におけるこのローカルな安全な参照に対してプロンプト状態を比較し、悪意のあるプロンプトの拒絶ブランチか、境界線良性プロンプトの有用なリカバリブランチにルートする。
Llama-3-8B-Instructでは、NeuroArmorは悪意のある攻撃成功率(ASR)を41.56%から1.57%に下げ、共有良性プールにおける良性偽陽性率(FPR)を30.26%から22.05%に下げる。
外部判断と手動による行動評価は、残りの非ブロック出力が運用上有害である可能性がはるかに低いことを示している。
全体として、NeuroArmorは、プロンプト固有の一貫性チェック、ルーティング、選択的介入を組み合わせることで、ジェイルブレイク防御のためのより効果的な実行戦略を提供する。
関連論文リスト
- CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations [0.9732319879728966]
大きな言語モデル(LLM)は、安全フィルタを回避し、有害または非倫理的な振る舞いを誘発するジェイルブレイクの悪用に影響を受けやすいままである。
この研究は、即時レベル、モデルレベル、トレーニングタイムの介入にまたがって、既存のジェイルブレイク防御の体系的な分類を提示している。
論文 参考訳(メタデータ) (2025-11-24T09:38:11Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning [21.423429565221383]
大規模言語モデル(LLM)は幅広いアプリケーションにとって不可欠だが、ジェイルブレイクの脅威を受けやすい。
有害な入力を積極的に評価するために,LSMの高機能化を利用した新しい防衛戦略であるセーフティ・チェーン・オブ・サート(SCoT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:45:23Z) - InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models [7.186499635424984]
プロンプトインジェクション攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
プロンプトガードモデルは防御に有効であるが、単語バイアスの引き金として過防衛に苦しむ。
InjecGuardは、新しいトレーニング戦略であるMitigating Over-defense for Freeを取り入れた、新しいプロンプトガードモデルである。
論文 参考訳(メタデータ) (2024-10-30T07:39:42Z) - SPIN: Self-Supervised Prompt INjection [16.253558670549697]
敵の攻撃と脱獄攻撃は 安全アライメントを回避し モデルに有害な反応をもたらすよう提案されている
自己監督型プロンプト注入(SPIN)を導入し,LSMに対するこれらの様々な攻撃を検出し,逆転させることができる。
本システムでは,攻撃成功率を87.9%まで削減し,ユーザ要求の良質な性能を維持しながら,攻撃成功率を最大で87.9%削減する。
論文 参考訳(メタデータ) (2024-10-17T05:40:54Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。