論文の概要: Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free
Backdoor Removal via Stabilized Model Inversion
- arxiv url: http://arxiv.org/abs/2206.07018v3
- Date: Fri, 24 Mar 2023 01:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:51:36.555199
- Title: Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free
Backdoor Removal via Stabilized Model Inversion
- Title(参考訳): 呪いを祝福に変える - 安定化モデルインバージョンによる分散データ不要バックドアの除去を可能にする
- Authors: Si Chen, Yi Zeng, Jiachen T.Wang, Won Park, Xun Chen, Lingjuan Lyu,
Zhuoqing Mao, Ruoxi Jia
- Abstract要約: モデル逆転のための二段階最適化に基づく新しいフレームワークを提案する。
事前学習した発電機の潜伏空間から得られたサンプルは, バックドアモデルからの信号を利用した場合であっても, バックドアフリーであることが判明した。
- 参考スコア(独自算出の注目度): 27.294396320665594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many backdoor removal techniques in machine learning models require clean
in-distribution data, which may not always be available due to proprietary
datasets. Model inversion techniques, often considered privacy threats, can
reconstruct realistic training samples, potentially eliminating the need for
in-distribution data. Prior attempts to combine backdoor removal and model
inversion yielded limited results. Our work is the first to provide a thorough
understanding of leveraging model inversion for effective backdoor removal by
addressing key questions about reconstructed samples' properties, perceptual
similarity, and the potential presence of backdoor triggers.
We establish that relying solely on perceptual similarity is insufficient for
robust defenses, and the stability of model predictions in response to input
and parameter perturbations is also crucial. To tackle this, we introduce a
novel bi-level optimization-based framework for model inversion, promoting
stability and visual quality. Interestingly, we discover that reconstructed
samples from a pre-trained generator's latent space are backdoor-free, even
when utilizing signals from a backdoored model. We provide a theoretical
analysis to support this finding. Our evaluation demonstrates that our
stabilized model inversion technique achieves state-of-the-art backdoor removal
performance without clean in-distribution data, matching or surpassing
performance using the same amount of clean samples.
- Abstract(参考訳): 機械学習モデルにおける多くのバックドア除去技術は、きれいな配布データを必要とするが、プロプライエタリなデータセットのために常に利用できるとは限らない。
モデル反転技術は、しばしばプライバシーの脅威と見なされるが、現実的なトレーニングサンプルを再構築し、配布データの必要性をなくす可能性がある。
バックドア除去とモデル逆転を組み合わせた以前の試みは、限られた結果をもたらした。
本研究は, モデルインバージョンを有効なバックドア除去に活用する手法として, 再構成されたサンプルの特性, 知覚的類似性, バックドアトリガの潜在的な存在に関する重要な疑問に対処する。
強固な防御には知覚的類似性のみに依存することは不十分であり、入力とパラメータの摂動に対するモデル予測の安定性も重要である。
そこで本研究では,モデルインバージョンと安定性,視覚的品質向上のための2段階最適化フレームワークを提案する。
興味深いことに、事前訓練された発電機の潜伏空間からの再構成サンプルは、バックドアモデルからの信号を利用する場合でも、バックドアフリーであることが判明した。
この発見を支持する理論的分析を提供する。
その結果,本手法は,同一量のクリーンサンプルを用いた性能の一致や超過を伴わずに,最先端のバックドア除去性能を実現した。
関連論文リスト
- TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文 参考訳(メタデータ) (2024-09-09T03:02:16Z) - Prototype Clustered Diffusion Models for Versatile Inverse Problems [11.55838697574475]
測定に基づく確率は、逆の確率的図形方向を通した復元に基づく確率で再現可能であることを示す。
提案手法は, サンプル品質を考慮に入れた逆問題に対処し, 精度の高い劣化制御を実現する。
論文 参考訳(メタデータ) (2024-07-13T04:24:53Z) - Mitigating Backdoor Attacks using Activation-Guided Model Editing [8.00994004466919]
バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T13:43:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。