論文の概要: SpectralGuard: Detecting Memory Collapse Attacks in State Space Models
- arxiv url: http://arxiv.org/abs/2603.12414v1
- Date: Thu, 12 Mar 2026 19:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.74815
- Title: SpectralGuard: Detecting Memory Collapse Attacks in State Space Models
- Title(参考訳): SpectralGuard: 状態空間モデルにおけるメモリエラー検出
- Authors: Davi Bonetto,
- Abstract要約: Mambaのような状態空間モデル(SSM)は、入力依存の繰り返しによって線形時間シーケンス処理を実現する。
離散化遷移作用素のスペクトル半径rho(A-bar)が有効メモリ水平線を支配していることを示す。
我々は,任意の出力のみの防御に対して,スペクトル崩壊と回避検出を同時に誘発する対向入力が存在することを示すEvasion Existence理論を証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State Space Models (SSMs) such as Mamba achieve linear-time sequence processing through input-dependent recurrence, but this mechanism introduces a critical safety vulnerability. We show that the spectral radius rho(A-bar) of the discretized transition operator governs effective memory horizon: when an adversary drives rho toward zero through gradient-based Hidden State Poisoning, memory collapses from millions of tokens to mere dozens, silently destroying reasoning capacity without triggering output-level alarms. We prove an Evasion Existence Theorem showing that for any output-only defense, adversarial inputs exist that simultaneously induce spectral collapse and evade detection, then introduce SpectralGuard, a real-time monitor that tracks spectral stability across all model layers. SpectralGuard achieves F1=0.961 against non-adaptive attackers and retains F1=0.842 under the strongest adaptive setting, with sub-15ms per-token latency. Causal interventions and cross-architecture transfer to hybrid SSM-Attention systems confirm that spectral monitoring provides a principled, deployable safety layer for recurrent foundation models.
- Abstract(参考訳): Mambaのような状態空間モデル(SSM)は、入力依存の繰り返しによって線形時間シーケンス処理を実現するが、このメカニズムは重大な安全性の脆弱性をもたらす。
我々は, 離散化遷移作用素のスペクトル半径rho(A-bar)が, 実効的なメモリ水平線を支配していることを示す: 進度に基づくHidden State Poisoningを通して, 相手がrhoをゼロに駆動すると, メモリは数百万のトークンから数十個に崩壊し, 出力レベルアラームを発生させることなく, 理論化能力を破壊する。
出力のみの防衛において、スペクトル崩壊と回避検出を同時に誘発する逆入力が存在することを示すEvasion Existence Theoremを証明し、次に、すべてのモデル層にわたるスペクトル安定性を追跡するリアルタイムモニタであるSpectralGuardを紹介した。
SpectralGuardはF1=0.961を非適応攻撃に対して達成し、F1=0.842を最強適応環境で保持する。
ハイブリッドSSM-Attentionシステムへの因果的介入とクロスアーキテクチャの移行により、スペクトルモニタリングは、繰り返し基礎モデルのための原則付き、デプロイ可能な安全層を提供することを確認した。
関連論文リスト
- BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models [10.286339414754499]
Bad RSSDは自己教師付き拡散モデルの表現層をターゲットにした最初のバックドア攻撃である。
標的画像に対するPCA空間のトリガーで有毒なサンプルのセマンティック表現をハイジャックする。
悪い RSSD は FID と MSE の両方で既存の攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2026-03-01T09:56:26Z) - From Internal Diagnosis to External Auditing: A VLM-Driven Paradigm for Online Test-Time Backdoor Defense [6.783000267839024]
PRISMは最先端の性能を達成し、CIFAR-10でのアタック成功率を1%に抑えつつ、クリーンな精度を改善し、モデルに依存しない外部セキュリティの新しい標準を確立した。
論文 参考訳(メタデータ) (2026-01-27T10:34:06Z) - Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP [68.44229678548298]
コントラストスペクトル整流(Contrastive Spectral Rectification, CSR)は、敵の例に対する効率的な試験時間防御である。
CSRはSOTAを18.1%上回り、AutoAttackに勝っている。
CSRは様々な視覚的タスクに幅広い適用性を示す。
論文 参考訳(メタデータ) (2026-01-27T05:24:45Z) - Cross-Layer Isochronous Diffusion Protocol (CIDP): A Rigorous Information-Theoretic and Control-Theoretic Framework for Sovereign Tactical Anonymity [0.0]
次世代戦術ネットワークは、重要な匿名トリレムマに直面している。
強い匿名性、低レイテンシ(イソクロニー)、低帯域オーバヘッドをグローバルな敵の下で同時に達成することは不可能である。
CIDPは、高速アンテナサイドローブ変調により物理層エントロピーを注入することで、このデッドロックを破る。
論文 参考訳(メタデータ) (2025-12-09T16:55:00Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - A Spectral Perspective towards Understanding and Improving Adversarial
Robustness [8.912245110734334]
対人訓練(AT)は効果的な防御手法であることが証明されているが、堅牢性向上のメカニズムは十分に理解されていない。
我々は、ATは、形状バイアスのある表現を保持する低周波領域にもっと焦点を合わせ、堅牢性を得るよう深層モデルに誘導することを示す。
本稿では,攻撃された逆入力によって推定されるスペクトル出力が,その自然な入力に可能な限り近いスペクトルアライメント正則化(SAR)を提案する。
論文 参考訳(メタデータ) (2023-06-25T14:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。