論文の概要: CacheTrap: Injecting Trojans in LLMs without Leaving any Traces in Inputs or Weights
- arxiv url: http://arxiv.org/abs/2511.22681v1
- Date: Thu, 27 Nov 2025 18:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.680181
- Title: CacheTrap: Injecting Trojans in LLMs without Leaving any Traces in Inputs or Weights
- Title(参考訳): CacheTrap:入力やウェイトにトレースを残さずにLLMにトロイの木を注入する
- Authors: Mohaiminul Al Nahian, Abeer Matar A. Almalky, Gamana Aragonda, Ranyang Zhou, Sabbir Ahmed, Dmitry Ponomarev, Li Yang, Shaahin Angizi, Adnan Siraj Rakin,
- Abstract要約: KVキャッシュに格納された値ベクトルを破損させる新しいTrojan攻撃であるCacheTrapを導入する。
評価の結果,提案手法により,KVキャッシュの単一ビットフリップによるLSMに対する最初のトロイの木馬攻撃が可能となった。
- 参考スコア(独自算出の注目度): 14.467934380203873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial weight perturbation has emerged as a concerning threat to LLMs that either use training privileges or system-level access to inject adversarial corruption in model weights. With the emergence of innovative defensive solutions that place system- and algorithm-level checks and corrections in the input and weight spaces, these perturbations are increasingly susceptible to defenses. This work develops a novel perspective on Trojan attacks that generates an attacker-designed model output while leaving no attack traces on the inputs or weights. Such an attack space can be unlocked through corruption of the key-value (KV) cache. In this paper, we introduce CacheTrap, a novel Trojan attack that corrupts the value vectors stored in the KV cache. These vectors capture the dynamic activations for specific token positions and therefore constitute a natural surface for transient, inference-time trigger insertion. The transient nature of these KV values and their dependence on victim input imply additional constraints on our attack, such as a lack of knowledge of the victim's data or domain application, and, consequently, a lack of gradient information. The objective of the proposed CacheTrap is to develop a vulnerable KV bit-searching algorithm so that, once the attack employs the identified bit-flip as a trigger, the model generates targeted behavior, e.g., classifying inputs towards the target class. Moreover, CacheTrap is a data- and gradient-free attack which also has no impact on the model's utility. Our evaluation demonstrates that the proposed attack enables the first successful Trojan attack on LLMs with a single bit flip in the KV cache. In addition, the data-independent nature of the attack ensures that once the attacker identifies the vulnerable bit index, the location remains constant and can be transferred to a wide range of victim tasks/datasets/queries with no overhead.
- Abstract(参考訳): 敵の重量摂動は、訓練特権またはシステムレベルのアクセスを使用して、モデルの重量に敵の腐敗を注入するLSMに対する脅威として出現している。
システムレベルとアルゴリズムレベルのチェックと修正を入力と重み空間に配置する革新的な防御ソリューションが出現するにつれ、これらの摂動は防御に弱まりつつある。
この研究は、攻撃者が設計したモデル出力を生成しながら、入力や重みに攻撃痕跡を残さないトロイの木馬攻撃に関する新しい視点を開発する。
このような攻撃空間はキー値(KV)キャッシュの破損によってアンロックされる。
本稿では,KVキャッシュに格納された値ベクトルを破損させる新しいTrojan攻撃であるCacheTrapを紹介する。
これらのベクトルは特定のトークン位置に対する動的アクティベーションをキャプチャし、従って過渡的な推論時トリガー挿入のための自然な表面を構成する。
これらのKV値の過渡的な性質と被害者入力への依存は、被害者のデータやドメインアプリケーションに関する知識の欠如や、結果として勾配情報の欠如など、攻撃に対する追加的な制約を示唆している。
提案するCacheTrapの目的は、攻撃が特定ビットフリップをトリガーとして使用すると、ターゲットクラスに対する入力を分類する、脆弱なKVビット探索アルゴリズムを開発することである。
さらに、CacheTrapはデータと勾配のない攻撃であり、モデルの有用性にも影響を与えない。
評価の結果,提案手法により,KVキャッシュの単一ビットフリップによるLSMに対する最初のトロイの木馬攻撃が可能となった。
さらに、攻撃者のデータ非依存の性質により、攻撃者が脆弱なビットインデックスを識別すると、その位置は一定であり、オーバーヘッドのない幅広い犠牲者タスク/データセット/クエリに転送できる。
関連論文リスト
- Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference [17.46930265810127]
キーバリュー(KV)キャッシュは、冗長な計算を避けるために中間注意計算(キーとバリューペア)を格納する。
本稿では,攻撃者がKV-cacheから直接センシティブなユーザ入力を再構築できることを実証し,脆弱性の包括的解析を行った。
我々は,新しい,軽量で効率的な防御機構であるKV-Cloakを提案する。
論文 参考訳(メタデータ) (2025-08-13T02:48:25Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。
本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:01:35Z) - A Practical Trigger-Free Backdoor Attack on Neural Networks [33.426207982772226]
トレーニングデータへのアクセスを必要としないトリガーフリーのバックドア攻撃を提案する。
具体的には、悪意のあるデータの概念を攻撃者特定クラスの概念に組み込んだ、新しい微調整アプローチを設計する。
提案した攻撃の有効性,実用性,ステルスネスを実世界の3つのデータセットで評価した。
論文 参考訳(メタデータ) (2024-08-21T08:53:36Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。