論文の概要: How to Inject Backdoors with Better Consistency: Logit Anchoring on
Clean Data
- arxiv url: http://arxiv.org/abs/2109.01300v1
- Date: Fri, 3 Sep 2021 03:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 13:49:55.299271
- Title: How to Inject Backdoors with Better Consistency: Logit Anchoring on
Clean Data
- Title(参考訳): 一貫性を向上したバックドアの注入方法:クリーンデータによるログアンカリング
- Authors: Zhiyuan Zhang, Lingjuan Lyu, Weiqiang Wang, Lichao Sun, Xu Sun
- Abstract要約: 近年の攻撃では、トレーニングされたクリーンなモデルにバックドアを注入し、クリーンなデータに対するモデル動作を変更することなく検討されている。
従来の研究によると、バックドアはAWP(Adversarial Weight Perturbation)でトレーニングされたクリーンモデルに注入できる。
本研究では,トレーニングされたクリーンモデルにバックドアを注入する際のパラメータの変動が常にAWPである,という興味深い現象を観察する。
- 参考スコア(独自算出の注目度): 26.35489903022617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since training a large-scale backdoored model from scratch requires a large
training dataset, several recent attacks have considered to inject backdoors
into a trained clean model without altering model behaviors on the clean data.
Previous work finds that backdoors can be injected into a trained clean model
with Adversarial Weight Perturbation (AWP). Here AWPs refers to the variations
of parameters that are small in backdoor learning. In this work, we observe an
interesting phenomenon that the variations of parameters are always AWPs when
tuning the trained clean model to inject backdoors. We further provide
theoretical analysis to explain this phenomenon. We formulate the behavior of
maintaining accuracy on clean data as the consistency of backdoored models,
which includes both global consistency and instance-wise consistency. We
extensively analyze the effects of AWPs on the consistency of backdoored
models. In order to achieve better consistency, we propose a novel anchoring
loss to anchor or freeze the model behaviors on the clean data, with a
theoretical guarantee. Both the analytical and the empirical results validate
the effectiveness of the anchoring loss in improving the consistency,
especially the instance-wise consistency.
- Abstract(参考訳): 大規模なバックドアモデルをスクラッチからトレーニングするためには、大規模なトレーニングデータセットが必要になるため、最近の攻撃では、クリーンデータにモデル動作を変更することなく、トレーニング済みのクリーンモデルにバックドアを注入することを検討している。
以前の研究によると、バックドアはAdversarial Weight Perturbation (AWP)でトレーニングされたクリーンモデルに注入できる。
ここでAWPは、バックドア学習において小さいパラメータのバリエーションを指す。
本研究では,トレーニングされたクリーンモデルにバックドアを注入する際のパラメータの変動が常にAWPである,という興味深い現象を観察する。
さらに,この現象を説明するために理論的解析を行う。
グローバル一貫性とインスタンス間一貫性の両方を含むバックドアモデルの一貫性として,クリーンデータの正確性を維持する動作を定式化する。
バックドアモデルの整合性に及ぼすAWPの影響を広範囲に解析する。
より整合性を高めるため,クリーンデータ上でのモデル動作のアンカリングや凍結のための新しいアンカリング損失を理論的保証とともに提案する。
解析結果と実験結果の両方で, 一貫性, 特にインスタンスの整合性を改善する上でのアンカー損失の有効性が検証された。
関連論文リスト
- CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、バックドア攻撃の影響を受けやすい。
バックドアトリガによる階層的不整合に対処するために、内部一貫性規則化(CROW)を導入する。
CROWは、さまざまなバックドア戦略やタスクにおける攻撃成功率の大幅な削減を一貫して達成している。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - How to Backdoor Consistency Models? [10.977907906989342]
バックドア攻撃に対する一貫性モデルの脆弱性に関する最初の研究を行う。
我々のフレームワークは、高い実用性と特異性を維持しながら、一貫性モデルの妥協に成功した。
論文 参考訳(メタデータ) (2024-10-14T22:25:06Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Unveiling and Mitigating Backdoor Vulnerabilities based on Unlearning Weight Changes and Backdoor Activeness [23.822040810285717]
クリーンなデータを学習し、プルーニングマスクを学習するアンラーニングモデルは、バックドアディフェンスに寄与している。
本研究では,重み変化と勾配ノルムの観点から,モデルアンラーニングについて検討する。
最初の段階では、観測1に基づいて、効率的なニューロン量変化(NWC)に基づくバックドア再初期化を提案する。
第2段階では、観測2に基づいて、バニラファインチューニングに代わるアクティブネス対応ファインチューニングを設計する。
論文 参考訳(メタデータ) (2024-05-30T17:41:32Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Mitigating Backdoors in Federated Learning with FLD [7.908496863030483]
フェデレーション学習は、クライアントがプライバシー保護のために生データをアップロードすることなく、グローバルモデルを協調的にトレーニングすることを可能にする。
この機能は最近、バックドア攻撃に直面したフェデレーション学習の脆弱性の原因となっていることが判明した。
バックドア攻撃に対して効果的に防御する新しいモデルフィルタリング手法であるフェデレート層検出(FLD)を提案する。
論文 参考訳(メタデータ) (2023-03-01T07:54:54Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free
Backdoor Removal via Stabilized Model Inversion [27.294396320665594]
モデル逆転のための二段階最適化に基づく新しいフレームワークを提案する。
事前学習した発電機の潜伏空間から得られたサンプルは, バックドアモデルからの信号を利用した場合であっても, バックドアフリーであることが判明した。
論文 参考訳(メタデータ) (2022-06-14T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。