Fugu-MT 論文翻訳(概要): How to Inject Backdoors with Better Consistency: Logit Anchoring on Clean Data

論文の概要: How to Inject Backdoors with Better Consistency: Logit Anchoring on Clean Data

arxiv url: http://arxiv.org/abs/2109.01300v1
Date: Fri, 3 Sep 2021 03:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-06 13:49:55.299271
Title: How to Inject Backdoors with Better Consistency: Logit Anchoring on Clean Data
Title（参考訳）: 一貫性を向上したバックドアの注入方法:クリーンデータによるログアンカリング
Authors: Zhiyuan Zhang, Lingjuan Lyu, Weiqiang Wang, Lichao Sun, Xu Sun
Abstract要約: 近年の攻撃では、トレーニングされたクリーンなモデルにバックドアを注入し、クリーンなデータに対するモデル動作を変更することなく検討されている。従来の研究によると、バックドアはAWP(Adversarial Weight Perturbation)でトレーニングされたクリーンモデルに注入できる。本研究では,トレーニングされたクリーンモデルにバックドアを注入する際のパラメータの変動が常にAWPである,という興味深い現象を観察する。
参考スコア（独自算出の注目度）: 26.35489903022617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since training a large-scale backdoored model from scratch requires a large training dataset, several recent attacks have considered to inject backdoors into a trained clean model without altering model behaviors on the clean data. Previous work finds that backdoors can be injected into a trained clean model with Adversarial Weight Perturbation (AWP). Here AWPs refers to the variations of parameters that are small in backdoor learning. In this work, we observe an interesting phenomenon that the variations of parameters are always AWPs when tuning the trained clean model to inject backdoors. We further provide theoretical analysis to explain this phenomenon. We formulate the behavior of maintaining accuracy on clean data as the consistency of backdoored models, which includes both global consistency and instance-wise consistency. We extensively analyze the effects of AWPs on the consistency of backdoored models. In order to achieve better consistency, we propose a novel anchoring loss to anchor or freeze the model behaviors on the clean data, with a theoretical guarantee. Both the analytical and the empirical results validate the effectiveness of the anchoring loss in improving the consistency, especially the instance-wise consistency.
Abstract（参考訳）: 大規模なバックドアモデルをスクラッチからトレーニングするためには、大規模なトレーニングデータセットが必要になるため、最近の攻撃では、クリーンデータにモデル動作を変更することなく、トレーニング済みのクリーンモデルにバックドアを注入することを検討している。以前の研究によると、バックドアはAdversarial Weight Perturbation (AWP)でトレーニングされたクリーンモデルに注入できる。ここでAWPは、バックドア学習において小さいパラメータのバリエーションを指す。本研究では,トレーニングされたクリーンモデルにバックドアを注入する際のパラメータの変動が常にAWPである,という興味深い現象を観察する。さらに,この現象を説明するために理論的解析を行う。グローバル一貫性とインスタンス間一貫性の両方を含むバックドアモデルの一貫性として,クリーンデータの正確性を維持する動作を定式化する。バックドアモデルの整合性に及ぼすAWPの影響を広範囲に解析する。より整合性を高めるため,クリーンデータ上でのモデル動作のアンカリングや凍結のための新しいアンカリング損失を理論的保証とともに提案する。解析結果と実験結果の両方で, 一貫性, 特にインスタンスの整合性を改善する上でのアンカー損失の有効性が検証された。

関連論文リスト

BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文参考訳（メタデータ） (2025-07-14T17:13:06Z)
Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文参考訳（メタデータ） (2024-12-02T10:54:02Z)
CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、バックドア攻撃の影響を受けやすい。バックドアトリガによる階層的不整合に対処するために、内部一貫性規則化(CROW)を導入する。 CROWは、さまざまなバックドア戦略やタスクにおける攻撃成功率の大幅な削減を一貫して達成している。
論文参考訳（メタデータ） (2024-11-18T07:52:12Z)
Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文参考訳（メタデータ） (2024-10-16T18:44:22Z)
How to Backdoor Consistency Models? [10.977907906989342]
バックドア攻撃に対する一貫性モデルの脆弱性に関する最初の研究を行う。我々のフレームワークは、高い実用性と特異性を維持しながら、一貫性モデルの妥協に成功した。
論文参考訳（メタデータ） (2024-10-14T22:25:06Z)
Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文参考訳（メタデータ） (2024-10-13T13:37:36Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
Unveiling and Mitigating Backdoor Vulnerabilities based on Unlearning Weight Changes and Backdoor Activeness [23.822040810285717]
クリーンなデータを学習し、プルーニングマスクを学習するアンラーニングモデルは、バックドアディフェンスに寄与している。本研究では,重み変化と勾配ノルムの観点から,モデルアンラーニングについて検討する。最初の段階では、観測1に基づいて、効率的なニューロン量変化(NWC)に基づくバックドア再初期化を提案する。第2段階では、観測2に基づいて、バニラファインチューニングに代わるアクティブネス対応ファインチューニングを設計する。
論文参考訳（メタデータ） (2024-05-30T17:41:32Z)
Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。 CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文参考訳（メタデータ） (2023-11-25T06:55:13Z)
Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文参考訳（メタデータ） (2023-10-28T08:21:16Z)
Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文参考訳（メタデータ） (2023-07-20T03:56:04Z)
CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。 CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文参考訳（メタデータ） (2023-03-06T17:48:32Z)
Mitigating Backdoors in Federated Learning with FLD [7.908496863030483]
フェデレーション学習は、クライアントがプライバシー保護のために生データをアップロードすることなく、グローバルモデルを協調的にトレーニングすることを可能にする。この機能は最近、バックドア攻撃に直面したフェデレーション学習の脆弱性の原因となっていることが判明した。バックドア攻撃に対して効果的に防御する新しいモデルフィルタリング手法であるフェデレート層検出(FLD)を提案する。
論文参考訳（メタデータ） (2023-03-01T07:54:54Z)
Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文参考訳（メタデータ） (2022-11-02T15:39:19Z)
Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free Backdoor Removal via Stabilized Model Inversion [27.294396320665594]
モデル逆転のための二段階最適化に基づく新しいフレームワークを提案する。事前学習した発電機の潜伏空間から得られたサンプルは, バックドアモデルからの信号を利用した場合であっても, バックドアフリーであることが判明した。
論文参考訳（メタデータ） (2022-06-14T17:32:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。