Fugu-MT 論文翻訳(概要): CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

論文の概要: CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

arxiv url: http://arxiv.org/abs/2603.12206v1
Date: Thu, 12 Mar 2026 17:29:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.256036
Title: CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks
Title（参考訳）: CLASP: 隠れた状態に対する攻撃に対して、ハイブリッドな大規模言語モデルを守る
Authors: Alexandre Le Mercier, Thomas Demeester, Chris Develder,
Abstract要約: Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。 HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。この脅威に対して防御するためのCLASPモデルを紹介します。
参考スコア（独自算出の注目度）: 48.54598003197356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State space models (SSMs) like Mamba have gained significant traction as efficient alternatives to Transformers, achieving linear complexity while maintaining competitive performance. However, Hidden State Poisoning Attacks (HiSPAs), a recently discovered vulnerability that corrupts SSM memory through adversarial strings, pose a critical threat to these architectures and their hybrid variants. Framing the HiSPA mitigation task as a binary classification problem at the token level, we introduce the CLASP model to defend against this threat. CLASP exploits distinct patterns in Mamba's block output embeddings (BOEs) and uses an XGBoost classifier to identify malicious tokens with minimal computational overhead. We consider a realistic scenario in which both SSMs and HiSPAs are likely to be used: an LLM screening résumés to identify the best candidates for a role. Evaluated on a corpus of 2,483 résumés totaling 9.5M tokens with controlled injections, CLASP achieves 95.9% token-level F1 score and 99.3% document-level F1 score on malicious tokens detection. Crucially, the model generalizes to unseen attack patterns: under leave-one-out cross-validation, performance remains high (96.9% document-level F1), while under clustered cross-validation with structurally novel triggers, it maintains useful detection capability (91.6% average document-level F1). Operating independently of any downstream model, CLASP processes 1,032 tokens per second with under 4GB VRAM consumption, potentially making it suitable for real-world deployment as a lightweight front-line defense for SSM-based and hybrid architectures. All code and detailed results are available at https://anonymous.4open.science/r/hispikes-91C0.
Abstract（参考訳）: Mambaのような状態空間モデル(SSM)は、競合性能を維持しながら線形複雑性を達成し、トランスフォーマーの効率的な代替品として大きな注目を集めている。しかし、最近発見されたHidden State Poisoning Attacks (HiSPAs)は、敵対的な文字列を通じてSSMメモリを破損させる脆弱性であり、これらのアーキテクチャとそのハイブリッドなバリエーションに重大な脅威をもたらす。トークンレベルでの2値分類問題としてHiSPA緩和タスクを分割し,この脅威に対してCLASPモデルを導入する。 CLASPは、Mambaのブロック出力埋め込み(BOE)の異なるパターンを利用し、XGBoost分類器を使用して、最小の計算オーバーヘッドで悪意のあるトークンを識別する。我々は、SSMとHiSPAsの両方が使用される可能性が高い現実的なシナリオを考察する。 CLASPは、コントロールインジェクションによる合計で2,483 résumésのコーパスで、95.9%のトークンレベルF1スコアと99.3%のドキュメントレベルF1スコアを達成している。重要なことに、このモデルは目に見えない攻撃パターンに一般化される: 離脱一行のクロスバリデーションの下では、パフォーマンスは高い(96.9%のドキュメントレベルF1)が、一方で、構造的に新しいトリガによるクラスタ化されたクロスバリデーションでは、有用な検出能力(91.6%の平均ドキュメントレベルF1)を維持している。ダウンストリームモデルとは無関係に、CLASPは4GBのVRAM使用量で毎秒1,032トークンを処理し、SSMベースのハイブリッドアーキテクチャの軽量なフロントラインディフェンスとして現実のデプロイメントに適している可能性がある。すべてのコードと詳細な結果はhttps://anonymous.4open.science/r/hispikes-91C0で公開されている。

論文の概要: CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

関連論文リスト