論文の概要: The Defense Trilemma: Why Prompt Injection Defense Wrappers Fail?
- arxiv url: http://arxiv.org/abs/2604.06436v2
- Date: Thu, 09 Apr 2026 04:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.891783
- Title: The Defense Trilemma: Why Prompt Injection Defense Wrappers Fail?
- Title(参考訳): なぜプロンプト・インジェクション・ディフェンス・ラッパーは失敗するのか?
- Authors: Manish Bhatt, Sarthak Munshi, Vineeth Sai Narajala, Idan Habler, Ammar Al-Kahfah, Ken Huang, Joel Webb, Blake Gatto,
- Abstract要約: モデルがそれを見る前に入力を前処理する$D: Xto X$は、接続されたプロンプト空間を持つ言語モデルに対して、すべての出力を厳格に安全にする。
- 参考スコア(独自算出の注目度): 0.47349547555803845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We prove that no continuous, utility-preserving wrapper defense-a function $D: X\to X$ that preprocesses inputs before the model sees them-can make all outputs strictly safe for a language model with connected prompt space, and we characterize exactly where every such defense must fail. We establish three results under successively stronger hypotheses: boundary fixation-the defense must leave some threshold-level inputs unchanged; an $ε$-robust constraint-under Lipschitz regularity, a positive-measure band around fixed boundary points remains near-threshold; and a persistent unsafe region under a transversality condition, a positive-measure subset of inputs remains strictly unsafe. These constitute a defense trilemma: continuity, utility preservation, and completeness cannot coexist. We prove parallel discrete results requiring no topology, and extend to multi-turn interactions, stochastic defenses, and capacity-parity settings. The results do not preclude training-time alignment, architectural changes, or defenses that sacrifice utility. The full theory is mechanically verified in Lean 4 and validated empirically on three LLMs.
- Abstract(参考訳): モデルがそれを見る前に入力を前処理する$D: X\to X$は、接続されたプロンプト空間を持つ言語モデルに対して、すべての出力を厳格に安全なものにします。
境界固定-防衛はしきい値レベルの入力をそのまま残さなければならない;$ε$-robust 制約付きリプシッツ正則性、固定境界点の周りの正測帯域がほぼ閾値のままである; 過渡条件下での永続的不安全領域は、入力の正測サブセットが厳密に安全でないままである。
連続性、実用性、完全性は共存できない。
我々は、トポロジを必要としない並列離散的な結果を証明し、マルチターン相互作用、確率的防御、キャパシティ・パーティ設定にまで拡張する。
その結果、トレーニング時間のアライメント、アーキテクチャの変更、ユーティリティを犠牲にする防御が妨げられません。
完全な理論はLean 4で機械的に検証され、3つのLLMで実証的に検証されます。
関連論文リスト
- Thinking Wrong in Silence: Backdoor Attacks on Continuous Latent Reasoning [1.3011345529764784]
新しい世代の言語モデルは、完全に連続的な隠蔽状態であり、トークンは生成せず、監査証跡も残っていない。
ThoughtSteer は >=99% の攻撃成功率をほぼベースラインのクリーンな精度で達成している。
個々の潜在ベクトルは、モデルが間違った解を出力したとしても、正しい解を符号化する。
論文 参考訳(メタデータ) (2026-04-01T11:34:55Z) - Empirical Validation of the Classification-Verification Dichotomy for AI Safety Gates [0.0]
オラクルベースの安全ゲートは、AIシステムが数百回以上のイテレーションを改善するため、信頼できる監視を維持することはできない。
自己改善自体の安全性ではなく、分類に特有であることを示す。
論文 参考訳(メタデータ) (2026-03-31T13:54:36Z) - Constraint Migration: A Formal Theory of Throughput in AI Cybersecurity Pipelines [0.0]
有限シリアルパイプラインシステムにおけるスループットの理論は、サイバーセキュリティ操作にAIツールを配置することで動機付けられる。
パイプラインは、正のキャパシティスループットが最小のステージキャパシティを持つ、有限全順序のステージセットである。
論文 参考訳(メタデータ) (2026-03-20T17:49:39Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs [7.125400292079228]
大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。
以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。
TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T05:03:35Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。