論文の概要: The Ripple Effect: On Unforeseen Complications of Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2505.11586v1
- Date: Fri, 16 May 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.72672
- Title: The Ripple Effect: On Unforeseen Complications of Backdoor Attacks
- Title(参考訳): バックドア攻撃の予期せぬ合併症に対するリップル効果
- Authors: Rui Zhang, Yun Shen, Hongwei Li, Wenbo Jiang, Hanxiao Chen, Yuan Zhang, Guowen Xu, Yang Zhang,
- Abstract要約: 裏口PTLMを微調整した下流モデルにおいて, バックドア合併症が広範に存在することを示す。
本稿では,マルチタスク学習を活用して,下流タスクの事前知識を必要とせずに,コンプレックスを軽減するバックドアコンプレックス低減手法を提案する。
- 参考スコア(独自算出の注目度): 37.537336956451576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research highlights concerns about the trustworthiness of third-party Pre-Trained Language Models (PTLMs) due to potential backdoor attacks. These backdoored PTLMs, however, are effective only for specific pre-defined downstream tasks. In reality, these PTLMs can be adapted to many other unrelated downstream tasks. Such adaptation may lead to unforeseen consequences in downstream model outputs, consequently raising user suspicion and compromising attack stealthiness. We refer to this phenomenon as backdoor complications. In this paper, we undertake the first comprehensive quantification of backdoor complications. Through extensive experiments using 4 prominent PTLMs and 16 text classification benchmark datasets, we demonstrate the widespread presence of backdoor complications in downstream models fine-tuned from backdoored PTLMs. The output distribution of triggered samples significantly deviates from that of clean samples. Consequently, we propose a backdoor complication reduction method leveraging multi-task learning to mitigate complications without prior knowledge of downstream tasks. The experimental results demonstrate that our proposed method can effectively reduce complications while maintaining the efficacy and consistency of backdoor attacks. Our code is available at https://github.com/zhangrui4041/Backdoor_Complications.
- Abstract(参考訳): 最近の研究は、バックドア攻撃の可能性から、サードパーティの事前訓練言語モデル(PTLM)の信頼性に関する懸念を浮き彫りにしている。
しかし、これらのバックドアPTLMは特定の下流タスクにのみ有効である。
実際、これらのPTLMは、他の多くの無関係な下流タスクに適応することができる。
このような適応は、ダウンストリームモデル出力において予期せぬ結果をもたらし、結果としてユーザの疑念を生じさせ、攻撃ステルスネスを損なう可能性がある。
この現象をバックドア合併症と呼ぶ。
本稿では,バックドア合併症の包括的定量化を初めて実施する。
4つの卓越したPTLMと16のテキスト分類ベンチマークデータセットを用いた広範囲な実験を通じて、バックドアPTLMを微調整した下流モデルにおけるバックドア合併症の存在を実証した。
トリガー試料の出力分布は, クリーン試料の出力分布と大きく異なっていた。
そこで本研究では,マルチタスク学習を活用して,下流タスクの事前知識を必要とせずに,合併症を軽減するバックドアコンプレックス低減手法を提案する。
提案手法は,バックドア攻撃の有効性と一貫性を維持しつつ,合併症を効果的に軽減できることを示す。
私たちのコードはhttps://github.com/zhangrui4041/Backdoor_Complications.comで利用可能です。
関連論文リスト
- Test-Time Backdoor Attacks on Multimodal Large Language Models [41.601029747738394]
マルチモーダル大規模言語モデル(MLLM)に対するテスト時間バックドア攻撃であるAnyDoorを提案する。
AnyDoorは、普遍的な敵攻撃で使用される同様のテクニックを採用しているが、有害な効果のセットアップとアクティベーションのタイミングを分離する能力によって、自分自身を区別している。
論文 参考訳(メタデータ) (2024-02-13T16:28:28Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Technical Report: Assisting Backdoor Federated Learning with Whole
Population Knowledge Alignment [4.87359365320076]
単発バックドア攻撃は、FLモデル収束時にメインタスクとバックドアサブタスクの両方で高い精度を達成する。
後続のバックドアアタックの予備段階を含む2段階のバックドアアタックを提案する。
予備段階から見れば、後から注入されたバックドアは、通常のモデル更新によってバックドア効果が希薄になりにくくなるため、効果が向上する。
論文 参考訳(メタデータ) (2022-07-25T16:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。