論文の概要: Persistent Backdoor Attacks under Continual Fine-Tuning of LLMs
- arxiv url: http://arxiv.org/abs/2512.14741v1
- Date: Fri, 12 Dec 2025 11:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.70674
- Title: Persistent Backdoor Attacks under Continual Fine-Tuning of LLMs
- Title(参考訳): LLMの連続微調整による持続的バックドア攻撃
- Authors: Jing Cui, Yufei Han, Jianbin Jiao, Junge Zhang,
- Abstract要約: 組込みバックドアが多段階後細調整によって持続するかどうかについて検討した。
P-Trojanは、繰り返し更新するバックドアの永続性を明示的に最適化するトリガーベースの攻撃アルゴリズムである。
- 参考スコア(独自算出の注目度): 33.568493008851746
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Backdoor attacks embed malicious behaviors into Large Language Models (LLMs), enabling adversaries to trigger harmful outputs or bypass safety controls. However, the persistence of the implanted backdoors under user-driven post-deployment continual fine-tuning has been rarely examined. Most prior works evaluate the effectiveness and generalization of implanted backdoors only at releasing and empirical evidence shows that naively injected backdoor persistence degrades after updates. In this work, we study whether and how implanted backdoors persist through a multi-stage post-deployment fine-tuning. We propose P-Trojan, a trigger-based attack algorithm that explicitly optimizes for backdoor persistence across repeated updates. By aligning poisoned gradients with those of clean tasks on token embeddings, the implanted backdoor mapping is less likely to be suppressed or forgotten during subsequent updates. Theoretical analysis shows the feasibility of such persistent backdoor attacks after continual fine-tuning. And experiments conducted on the Qwen2.5 and LLaMA3 families of LLMs, as well as diverse task sequences, demonstrate that P-Trojan achieves over 99% persistence while preserving clean-task accuracy. Our findings highlight the need for persistence-aware evaluation and stronger defenses in realistic model adaptation pipelines.
- Abstract(参考訳): バックドア攻撃は、悪意のある振る舞いをLarge Language Models (LLM)に埋め込んで、敵が有害なアウトプットをトリガーしたり、安全制御をバイパスすることを可能にする。
しかし, ユーザ主導の継続的微調整による埋込みバックドアの持続性はめったに検討されていない。
ほとんどの先行研究は、移植されたバックドアの有効性と一般化を評価し、実験的な証拠から、移植されたバックドアの持続性は更新後に低下することが示された。
本研究は,多段後細調整によるインプラントバックドアの持続性について検討した。
P-Trojanは、繰り返し更新するバックドアの永続性を明示的に最適化するトリガーベースの攻撃アルゴリズムである。
汚染された勾配をトークン埋め込みのクリーンなタスクと整合させることで、移植されたバックドアマッピングは、その後の更新で抑制や忘れられがちである。
理論的解析は、連続的な微調整後の持続的なバックドア攻撃の可能性を示している。
また,LLMのQwen2.5およびLLaMA3ファミリーおよび多種多様なタスクシーケンスを用いて行った実験により,P-Trojanはクリーンタスク精度を維持しながら99%以上の持続性を示す。
本研究は,現実的なモデル適応パイプラインにおいて,永続性を考慮した評価とより強力な防御の必要性を浮き彫りにした。
関連論文リスト
- Towards Effective, Stealthy, and Persistent Backdoor Attacks Targeting Graph Foundation Models [62.87838888016534]
Graph Foundation Models(GFM)は、さまざまなソースドメインで事前トレーニングされ、目に見えないターゲットに適応する。
GFMに対するバックドア攻撃は、3つの主要な課題のために簡単ではない。
グラフ基礎モデルに対する新たなバックドア攻撃モデルであるGFM-BAを提案する。
論文 参考訳(メタデータ) (2025-11-22T08:52:09Z) - Steganographic Backdoor Attacks in NLP: Ultra-Low Poisoning and Defense Evasion [33.35232947017276]
トランスフォーマーモデルは自然言語処理(NLP)アプリケーションの基礎であるが、バックドア攻撃には弱い。
我々はステガノBackdoorを導入し、ステルステクニックを実用的な脅威モデルに適合させる。
SteganoBackdoorの攻撃成功率は99%を超えている。
論文 参考訳(メタデータ) (2025-11-18T09:56:16Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - DemonAgent: Dynamically Encrypted Multi-Backdoor Implantation Attack on LLM-based Agent [9.303780866480677]
我々は,textbfDynamically Encrypted Multi-Backdoor implantation Attackと呼ばれる新しいバックドアインプラント戦略を提案する。
動的暗号化を導入し、バックドアを良質なコンテンツにマッピングし、安全監査を効果的に回避する。
本稿では,エージェントバックドア攻撃の包括的評価を目的としたデータセットであるAgentBackdoorEvalを提案する。
論文 参考訳(メタデータ) (2025-02-18T06:26:15Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - Confidence Matters: Inspecting Backdoors in Deep Neural Networks via
Distribution Transfer [27.631616436623588]
本稿では,新しい観測結果を基にしたバックドアディフェンスDTInspectorを提案する。
DTInspectorは、ほとんどの高信頼データの予測を変える可能性のあるパッチを学び、それからバックドアの存在を決定する。
論文 参考訳(メタデータ) (2022-08-13T08:16:28Z) - Technical Report: Assisting Backdoor Federated Learning with Whole
Population Knowledge Alignment [4.87359365320076]
単発バックドア攻撃は、FLモデル収束時にメインタスクとバックドアサブタスクの両方で高い精度を達成する。
後続のバックドアアタックの予備段階を含む2段階のバックドアアタックを提案する。
予備段階から見れば、後から注入されたバックドアは、通常のモデル更新によってバックドア効果が希薄になりにくくなるため、効果が向上する。
論文 参考訳(メタデータ) (2022-07-25T16:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。