論文の概要: Pay Attention to the Triggers: Constructing Backdoors That Survive Distillation
- arxiv url: http://arxiv.org/abs/2510.18541v1
- Date: Tue, 21 Oct 2025 11:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.450732
- Title: Pay Attention to the Triggers: Constructing Backdoors That Survive Distillation
- Title(参考訳): トリガーの支払い:蒸留を助長するバックドアの構築
- Authors: Giovanni De Muri, Mark Vero, Robin Staab, Martin Vechev,
- Abstract要約: 従来のバックドアは学生モデルにはほとんど移行しない。
新しいバックドア技術であるT-MTBは、移動可能なバックドアの構築と研究を可能にする。
- 参考スコア(独自算出の注目度): 15.66858643045566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are often used by downstream users as teacher models for knowledge distillation, compressing their capabilities into memory-efficient models. However, as these teacher models may stem from untrusted parties, distillation can raise unexpected security risks. In this paper, we investigate the security implications of knowledge distillation from backdoored teacher models. First, we show that prior backdoors mostly do not transfer onto student models. Our key insight is that this is because existing LLM backdooring methods choose trigger tokens that rarely occur in usual contexts. We argue that this underestimates the security risks of knowledge distillation and introduce a new backdooring technique, T-MTB, that enables the construction and study of transferable backdoors. T-MTB carefully constructs a composite backdoor trigger, made up of several specific tokens that often occur individually in anticipated distillation datasets. As such, the poisoned teacher remains stealthy, while during distillation the individual presence of these tokens provides enough signal for the backdoor to transfer onto the student. Using T-MTB, we demonstrate and extensively study the security risks of transferable backdoors across two attack scenarios, jailbreaking and content modulation, and across four model families of LLMs.
- Abstract(参考訳): LLMはしばしば、知識蒸留の教師モデルとして下流のユーザによって使われ、その能力をメモリ効率のよいモデルに圧縮する。
しかし、これらの教師モデルは信頼できない者に由来する可能性があるため、蒸留は予期せぬセキュリティリスクを生じさせる可能性がある。
本稿では,バックドア型教師モデルによる知識蒸留の安全性について検討する。
まず,従来のバックドアは学生モデルにはほとんど移行しないことを示す。
我々の重要な洞察は、これは既存のLCMバックドアメソッドが通常の状況ではめったに起こらないトリガートークンを選択するためである。
このことは知識蒸留の安全性のリスクを過小評価し、転送可能なバックドアの構築と研究を可能にする新しいバックドア技術であるT-MTBを導入している。
T-MTBは、予想される蒸留データセットでしばしば個別に発生するいくつかの特定のトークンからなる複合バックドアトリガーを慎重に構築する。
このように、毒を盛った教師はステルス性を維持し、蒸留中は、これらのトークンの個々の存在は、学生にバックドアを移すのに十分な信号を与える。
T-MTBを用いて、2つの攻撃シナリオ、ジェイルブレイクとコンテンツ調整、LLMの4つのモデルファミリーにおけるトランスファー可能なバックドアのセキュリティリスクを実証および広範囲に研究した。
関連論文リスト
- Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - How to Backdoor the Knowledge Distillation [10.478504819079548]
バックドアトリガを組み込んだ逆例を用いて, 蒸留データセットを戦略的に有害化する新たな攻撃手法を提案する。
この技術は、教師モデルの整合性を保ちながら、生徒モデルのステルスな妥協を可能にする。
本研究は,未認識の脆弱性を明らかにし,知識蒸留プロセスの確保を目的とした今後の研究の道を開くものである。
論文 参考訳(メタデータ) (2025-04-30T05:19:23Z) - Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models [9.995807326278959]
トレーニング期間中にトリガトークンを積極的に検出・中和するバックドアトークンアンラーニング(BTU)と呼ばれる新しい防衛手法を提案する。
裏口学習は, 単語埋め込み層において, 裏口トークンパラメータとクリーントークンパラメータの区別を生じさせ, 裏口攻撃の成功は裏口トークンパラメータに大きく依存する。
論文 参考訳(メタデータ) (2025-01-05T03:22:13Z) - Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.368601067410701]
特徴アライメント知識の蒸留に基づくバックドアアタックを防御する,新しいアンラーニングアルゴリズムを提案する。
具体的には、まず、クリーンな教師モデルとして機能するフルパラメータの微調整を通して、小規模の言語モデルを訓練する。
そして,この教師モデルは,PEFTを活用したバックドアの学習において,大規模に有毒な学生モデルを導出する。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。
従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。
本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文 参考訳(メタデータ) (2024-08-19T10:39:45Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision Transformers [51.0477382050976]
この作業でスイッチトークンと呼ばれる追加のプロンプトトークンは、バックドアモードをオンにすることができ、良心的なモデルをバックドアモードに変換することができる。
事前訓練されたモデルを攻撃するため、SWARMと呼ばれる攻撃はトリガを学習し、スイッチトークンを含むトークンをプロンプトする。
多様な視覚認識タスクの実験は、切り替え可能なバックドア攻撃の成功を確認し、95%以上の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-05-17T08:19:48Z) - Simulate and Eliminate: Revoke Backdoors for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。