論文の概要: How to Inject Backdoors with Better Consistency: Logit Anchoring on
Clean Data
- arxiv url: http://arxiv.org/abs/2109.01300v1
- Date: Fri, 3 Sep 2021 03:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 13:49:55.299271
- Title: How to Inject Backdoors with Better Consistency: Logit Anchoring on
Clean Data
- Title(参考訳): 一貫性を向上したバックドアの注入方法:クリーンデータによるログアンカリング
- Authors: Zhiyuan Zhang, Lingjuan Lyu, Weiqiang Wang, Lichao Sun, Xu Sun
- Abstract要約: 近年の攻撃では、トレーニングされたクリーンなモデルにバックドアを注入し、クリーンなデータに対するモデル動作を変更することなく検討されている。
従来の研究によると、バックドアはAWP(Adversarial Weight Perturbation)でトレーニングされたクリーンモデルに注入できる。
本研究では,トレーニングされたクリーンモデルにバックドアを注入する際のパラメータの変動が常にAWPである,という興味深い現象を観察する。
- 参考スコア(独自算出の注目度): 26.35489903022617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since training a large-scale backdoored model from scratch requires a large
training dataset, several recent attacks have considered to inject backdoors
into a trained clean model without altering model behaviors on the clean data.
Previous work finds that backdoors can be injected into a trained clean model
with Adversarial Weight Perturbation (AWP). Here AWPs refers to the variations
of parameters that are small in backdoor learning. In this work, we observe an
interesting phenomenon that the variations of parameters are always AWPs when
tuning the trained clean model to inject backdoors. We further provide
theoretical analysis to explain this phenomenon. We formulate the behavior of
maintaining accuracy on clean data as the consistency of backdoored models,
which includes both global consistency and instance-wise consistency. We
extensively analyze the effects of AWPs on the consistency of backdoored
models. In order to achieve better consistency, we propose a novel anchoring
loss to anchor or freeze the model behaviors on the clean data, with a
theoretical guarantee. Both the analytical and the empirical results validate
the effectiveness of the anchoring loss in improving the consistency,
especially the instance-wise consistency.
- Abstract(参考訳): 大規模なバックドアモデルをスクラッチからトレーニングするためには、大規模なトレーニングデータセットが必要になるため、最近の攻撃では、クリーンデータにモデル動作を変更することなく、トレーニング済みのクリーンモデルにバックドアを注入することを検討している。
以前の研究によると、バックドアはAdversarial Weight Perturbation (AWP)でトレーニングされたクリーンモデルに注入できる。
ここでAWPは、バックドア学習において小さいパラメータのバリエーションを指す。
本研究では,トレーニングされたクリーンモデルにバックドアを注入する際のパラメータの変動が常にAWPである,という興味深い現象を観察する。
さらに,この現象を説明するために理論的解析を行う。
グローバル一貫性とインスタンス間一貫性の両方を含むバックドアモデルの一貫性として,クリーンデータの正確性を維持する動作を定式化する。
バックドアモデルの整合性に及ぼすAWPの影響を広範囲に解析する。
より整合性を高めるため,クリーンデータ上でのモデル動作のアンカリングや凍結のための新しいアンカリング損失を理論的保証とともに提案する。
解析結果と実験結果の両方で, 一貫性, 特にインスタンスの整合性を改善する上でのアンカー損失の有効性が検証された。
関連論文リスト
- Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Mitigating Backdoors in Federated Learning with FLD [7.908496863030483]
フェデレーション学習は、クライアントがプライバシー保護のために生データをアップロードすることなく、グローバルモデルを協調的にトレーニングすることを可能にする。
この機能は最近、バックドア攻撃に直面したフェデレーション学習の脆弱性の原因となっていることが判明した。
バックドア攻撃に対して効果的に防御する新しいモデルフィルタリング手法であるフェデレート層検出(FLD)を提案する。
論文 参考訳(メタデータ) (2023-03-01T07:54:54Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free
Backdoor Removal via Stabilized Model Inversion [27.294396320665594]
モデル逆転のための二段階最適化に基づく新しいフレームワークを提案する。
事前学習した発電機の潜伏空間から得られたサンプルは, バックドアモデルからの信号を利用した場合であっても, バックドアフリーであることが判明した。
論文 参考訳(メタデータ) (2022-06-14T17:32:04Z) - CRFL: Certifiably Robust Federated Learning against Backdoor Attacks [59.61565692464579]
本稿では,第1の汎用フレームワークであるCertifiably Robust Federated Learning (CRFL) を用いて,バックドアに対する堅牢なFLモデルをトレーニングする。
提案手法は, モデルパラメータのクリッピングと平滑化を利用して大域的モデル平滑化を制御する。
論文 参考訳(メタデータ) (2021-06-15T16:50:54Z) - Backdoor Learning Curves: Explaining Backdoor Poisoning Beyond Influence
Functions [26.143147923356626]
インクリメンタルラーニングとインフルエンス関数のレンズによるバックドアラーニングのプロセスについて検討した。
バックドア攻撃の成功は、(i)学習アルゴリズムの複雑さと(ii)トレーニングセットに注入されたバックドアサンプルの割合に本質的に依存していることが示される。
論文 参考訳(メタデータ) (2021-06-14T08:00:48Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。