論文の概要: Multi-Trigger Poisoning Amplifies Backdoor Vulnerabilities in LLMs
- arxiv url: http://arxiv.org/abs/2507.11112v1
- Date: Tue, 15 Jul 2025 09:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.047089
- Title: Multi-Trigger Poisoning Amplifies Backdoor Vulnerabilities in LLMs
- Title(参考訳): マルチトリガー中毒はLDMにおけるバックドアの脆弱性を増幅する
- Authors: Sanhanat Sivapiromrat, Caiqi Zhang, Marco Basaldella, Nigel Collier,
- Abstract要約: 複数の異なるバックドアトリガが1つのモデル内で相互に干渉することなく共存できることを示し、敵が複数のトリガを同時に埋め込むことを可能にする。
我々の発見は、大規模言語モデルにおいて、より広く、より永続的な脆弱性サーフェスを明らかにします。
本稿では,階層単位の重み差解析に基づいて,特定のモデル成分を選択的に再学習するポストホック回収法を提案する。
- 参考スコア(独自算出の注目度): 20.351816681587998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that Large Language Models (LLMs) are vulnerable to data poisoning attacks, where malicious training examples embed hidden behaviours triggered by specific input patterns. However, most existing works assume a phrase and focus on the attack's effectiveness, offering limited understanding of trigger mechanisms and how multiple triggers interact within the model. In this paper, we present a framework for studying poisoning in LLMs. We show that multiple distinct backdoor triggers can coexist within a single model without interfering with each other, enabling adversaries to embed several triggers concurrently. Using multiple triggers with high embedding similarity, we demonstrate that poisoned triggers can achieve robust activation even when tokens are substituted or separated by long token spans. Our findings expose a broader and more persistent vulnerability surface in LLMs. To mitigate this threat, we propose a post hoc recovery method that selectively retrains specific model components based on a layer-wise weight difference analysis. Our method effectively removes the trigger behaviour with minimal parameter updates, presenting a practical and efficient defence against multi-trigger poisoning.
- Abstract(参考訳): 近年の研究では、Large Language Models (LLM) はデータ中毒攻撃に弱いことが示されており、悪意のあるトレーニング例には特定の入力パターンによって引き起こされる隠された振る舞いが組み込まれている。
しかしながら、既存の作業の多くはフレーズを仮定し、攻撃の有効性に重点を置いており、トリガーメカニズムの限定的な理解と、モデル内で複数のトリガーがどのように相互作用するかを提供する。
本稿では, LLMにおける中毒研究の枠組みについて述べる。
複数の異なるバックドアトリガが1つのモデル内で相互に干渉することなく共存できることを示し、敵が複数のトリガを同時に埋め込むことを可能にする。
高埋め込み類似性を持つ複数のトリガを用いて、トークンが長いトークンスパンによって置換されたり分離されたりしても、有毒トリガーが堅牢なアクティベーションを実現することを実証する。
LLMのより広範囲で永続的な脆弱性表面が明らかとなった。
この脅威を軽減するために,階層単位の重量差解析に基づいて,特定のモデルコンポーネントを選択的に再訓練するポストホック回収法を提案する。
提案手法は,パラメータ更新を最小限に抑えたトリガー動作を効果的に除去し,マルチトリガー中毒に対する実用的で効率的な防御効果を示す。
関連論文リスト
- Shortcuts Arising from Contrast: Effective and Covert Clean-Label Attacks in Prompt-Based Learning [40.130762098868736]
本稿では、アクティベーション値を活用し、トリガ設計とデータ選択戦略を統合して、より強力なショートカット機能を実現するContrastive Shortcut Injection (CSI) を提案する。
フルショットおよび少数ショットのテキスト分類タスクに関する広範な実験により、CSIの高有効性と高い盗聴性を低毒性率で実証的に検証した。
論文 参考訳(メタデータ) (2024-03-30T20:02:36Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Shortcuts Everywhere and Nowhere: Exploring Multi-Trigger Backdoor Attacks [64.68741192761726]
ディープニューラルネットワーク(DNN)の事前トレーニングとデプロイに対して、バックドア攻撃は重大な脅威となっている。
本研究では,マルチトリガーバックドア攻撃(MTBA)の概念について検討し,複数の敵が異なる種類のトリガーを利用して同一のデータセットを毒する。
論文 参考訳(メタデータ) (2024-01-27T04:49:37Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - FTA: Stealthy and Adaptive Backdoor Attack with Flexible Triggers on
Federated Learning [11.636353298724574]
我々は,新たなステルスで堅牢なバックドア攻撃を,連邦学習(FL)防衛に対して提案する。
我々は、許容できない柔軟なトリガーパターンで良質なサンプルを操作することを学べる生成的トリガー関数を構築した。
我々のトリガージェネレータは学習を継続し、異なるラウンドにまたがって適応し、グローバルモデルの変化に適応できるようにします。
論文 参考訳(メタデータ) (2023-08-31T20:25:54Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning [27.391664788392]
事前訓練された重量は、特定のトリガーで有害に毒を盛ることがある。
微調整されたモデルは事前に定義されたラベルを予測し、セキュリティ上の脅威を引き起こす。
論文 参考訳(メタデータ) (2021-08-31T14:47:37Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。