論文の概要: Hidden State Poisoning Attacks against Mamba-based Language Models
- arxiv url: http://arxiv.org/abs/2601.01972v2
- Date: Tue, 06 Jan 2026 11:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.395273
- Title: Hidden State Poisoning Attacks against Mamba-based Language Models
- Title(参考訳): マンバをベースとした言語モデルに対する隠れた国家毒殺攻撃
- Authors: Alexandre Le Mercier, Chris Develder, Thomas Demeester,
- Abstract要約: Mambaのような状態空間モデル(SSM)は、Transformerベースの言語モデルの効率的な代替手段を提供する。
本稿では,これらのモデルにおいて,特定の短い入力句が部分記憶効果を誘導する現象を考察する。
我々のベンチマークであるRoBench25は、HiSPAsを受ける際のモデルの情報検索機能を評価することができる。
- 参考スコア(独自算出の注目度): 48.545980031973556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State space models (SSMs) like Mamba offer efficient alternatives to Transformer-based language models, with linear time complexity. Yet, their adversarial robustness remains critically unexplored. This paper studies the phenomenon whereby specific short input phrases induce a partial amnesia effect in such models, by irreversibly overwriting information in their hidden states, referred to as a Hidden State Poisoning Attack (HiSPA). Our benchmark RoBench25 allows evaluating a model's information retrieval capabilities when subject to HiSPAs, and confirms the vulnerability of SSMs against such attacks. Even a recent 52B hybrid SSM-Transformer model from the Jamba family collapses on RoBench25 under optimized HiSPA triggers, whereas pure Transformers do not. We also observe that HiSPA triggers significantly weaken the Jamba model on the popular Open-Prompt-Injections benchmark, unlike pure Transformers. Finally, our interpretability study reveals patterns in Mamba's hidden layers during HiSPAs that could be used to build a HiSPA mitigation system. The full code and data to reproduce the experiments can be found at https://anonymous.4open.science/r/hispa_anonymous-5DB0.
- Abstract(参考訳): Mambaのような状態空間モデル(SSM)は、線形時間複雑性を持つトランスフォーマーベースの言語モデルの効率的な代替手段を提供する。
しかし、その敵意の強固さはいまだに未解明のままである。
本稿では,特定の短い入力句が隠れた状態の情報を不可逆的に上書きすることで,そのようなモデルにおける部分的なアムネシア効果を誘発する現象を考察する。
我々のベンチマークであるRoBench25は、HiSPAsを受ける際のモデルの情報検索機能の評価を可能にし、そのような攻撃に対するSSMの脆弱性を確認する。
最近の52BハイブリッドSSMトランスフォーマーモデルでさえ、最適化されたHiSPAトリガの下でRoBench25上で崩壊するが、純粋なトランスフォーマーは崩壊しない。
HiSPAは、純粋なトランスフォーマーとは異なり、人気のあるOpen-Prompt-Injectionsベンチマークにおいて、Jambaモデルを著しく弱める。
最後に、我々の解釈可能性調査は、HiSPA緩和システムを構築するのに使用できるHiSPA中に、マンバの隠れた層内のパターンを明らかにする。
実験を再現する完全なコードとデータはhttps://anonymous.4open.science/r/hispa_anonymous-5DB0で見ることができる。
関連論文リスト
- COBRA: Catastrophic Bit-flip Reliability Analysis of State-Space Models [6.546311951672279]
私たちは、Mambaベースのアーキテクチャをターゲットにした最初のフレームワークであるRAMBOを紹介します。
我々は、1つの臨界ビットだけを反転させることで、破滅的に精度を74.64%から0%に下げ、18.94から3.75 x 106へとパープレキシティを増大させることができることを示した。
論文 参考訳(メタデータ) (2025-12-14T09:50:44Z) - Differential Mamba [17.835292722130628]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。
最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。
本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文 参考訳(メタデータ) (2025-07-08T17:30:14Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。