論文の概要: CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks
- arxiv url: http://arxiv.org/abs/2603.12206v1
- Date: Thu, 12 Mar 2026 17:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.256036
- Title: CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks
- Title(参考訳): CLASP: 隠れた状態に対する攻撃に対して、ハイブリッドな大規模言語モデルを守る
- Authors: Alexandre Le Mercier, Thomas Demeester, Chris Develder,
- Abstract要約: Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
- 参考スコア(独自算出の注目度): 48.54598003197356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State space models (SSMs) like Mamba have gained significant traction as efficient alternatives to Transformers, achieving linear complexity while maintaining competitive performance. However, Hidden State Poisoning Attacks (HiSPAs), a recently discovered vulnerability that corrupts SSM memory through adversarial strings, pose a critical threat to these architectures and their hybrid variants. Framing the HiSPA mitigation task as a binary classification problem at the token level, we introduce the CLASP model to defend against this threat. CLASP exploits distinct patterns in Mamba's block output embeddings (BOEs) and uses an XGBoost classifier to identify malicious tokens with minimal computational overhead. We consider a realistic scenario in which both SSMs and HiSPAs are likely to be used: an LLM screening résumés to identify the best candidates for a role. Evaluated on a corpus of 2,483 résumés totaling 9.5M tokens with controlled injections, CLASP achieves 95.9% token-level F1 score and 99.3% document-level F1 score on malicious tokens detection. Crucially, the model generalizes to unseen attack patterns: under leave-one-out cross-validation, performance remains high (96.9% document-level F1), while under clustered cross-validation with structurally novel triggers, it maintains useful detection capability (91.6% average document-level F1). Operating independently of any downstream model, CLASP processes 1,032 tokens per second with under 4GB VRAM consumption, potentially making it suitable for real-world deployment as a lightweight front-line defense for SSM-based and hybrid architectures. All code and detailed results are available at https://anonymous.4open.science/r/hispikes-91C0.
- Abstract(参考訳): Mambaのような状態空間モデル(SSM)は、競合性能を維持しながら線形複雑性を達成し、トランスフォーマーの効率的な代替品として大きな注目を集めている。
しかし、最近発見されたHidden State Poisoning Attacks (HiSPAs)は、敵対的な文字列を通じてSSMメモリを破損させる脆弱性であり、これらのアーキテクチャとそのハイブリッドなバリエーションに重大な脅威をもたらす。
トークンレベルでの2値分類問題としてHiSPA緩和タスクを分割し,この脅威に対してCLASPモデルを導入する。
CLASPは、Mambaのブロック出力埋め込み(BOE)の異なるパターンを利用し、XGBoost分類器を使用して、最小の計算オーバーヘッドで悪意のあるトークンを識別する。
我々は、SSMとHiSPAsの両方が使用される可能性が高い現実的なシナリオを考察する。
CLASPは、コントロールインジェクションによる合計で2,483 résumésのコーパスで、95.9%のトークンレベルF1スコアと99.3%のドキュメントレベルF1スコアを達成している。
重要なことに、このモデルは目に見えない攻撃パターンに一般化される: 離脱一行のクロスバリデーションの下では、パフォーマンスは高い(96.9%のドキュメントレベルF1)が、一方で、構造的に新しいトリガによるクラスタ化されたクロスバリデーションでは、有用な検出能力(91.6%の平均ドキュメントレベルF1)を維持している。
ダウンストリームモデルとは無関係に、CLASPは4GBのVRAM使用量で毎秒1,032トークンを処理し、SSMベースのハイブリッドアーキテクチャの軽量なフロントラインディフェンスとして現実のデプロイメントに適している可能性がある。
すべてのコードと詳細な結果はhttps://anonymous.4open.science/r/hispikes-91C0で公開されている。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - COBRA: Catastrophic Bit-flip Reliability Analysis of State-Space Models [6.546311951672279]
私たちは、Mambaベースのアーキテクチャをターゲットにした最初のフレームワークであるRAMBOを紹介します。
我々は、1つの臨界ビットだけを反転させることで、破滅的に精度を74.64%から0%に下げ、18.94から3.75 x 106へとパープレキシティを増大させることができることを示した。
論文 参考訳(メタデータ) (2025-12-14T09:50:44Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - FFCBA: Feature-based Full-target Clean-label Backdoor Attacks [10.650796825194337]
バックドア攻撃はディープニューラルネットワークに重大な脅威をもたらす。
汚染されたサンプルのラベルの変更を避けるため、クリーンラベル攻撃はよりステルス性が高い。
FFCBA(Full-target Clean-label Backdoor Attacks)を提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:42Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [6.462219916993885]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
我々は,ジェイルブレイク攻撃のための新しい手法を紹介し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。