論文の概要: Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free
Backdoor Removal via Stabilized Model Inversion
- arxiv url: http://arxiv.org/abs/2206.07018v3
- Date: Fri, 24 Mar 2023 01:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:51:36.555199
- Title: Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free
Backdoor Removal via Stabilized Model Inversion
- Title(参考訳): 呪いを祝福に変える - 安定化モデルインバージョンによる分散データ不要バックドアの除去を可能にする
- Authors: Si Chen, Yi Zeng, Jiachen T.Wang, Won Park, Xun Chen, Lingjuan Lyu,
Zhuoqing Mao, Ruoxi Jia
- Abstract要約: モデル逆転のための二段階最適化に基づく新しいフレームワークを提案する。
事前学習した発電機の潜伏空間から得られたサンプルは, バックドアモデルからの信号を利用した場合であっても, バックドアフリーであることが判明した。
- 参考スコア(独自算出の注目度): 27.294396320665594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many backdoor removal techniques in machine learning models require clean
in-distribution data, which may not always be available due to proprietary
datasets. Model inversion techniques, often considered privacy threats, can
reconstruct realistic training samples, potentially eliminating the need for
in-distribution data. Prior attempts to combine backdoor removal and model
inversion yielded limited results. Our work is the first to provide a thorough
understanding of leveraging model inversion for effective backdoor removal by
addressing key questions about reconstructed samples' properties, perceptual
similarity, and the potential presence of backdoor triggers.
We establish that relying solely on perceptual similarity is insufficient for
robust defenses, and the stability of model predictions in response to input
and parameter perturbations is also crucial. To tackle this, we introduce a
novel bi-level optimization-based framework for model inversion, promoting
stability and visual quality. Interestingly, we discover that reconstructed
samples from a pre-trained generator's latent space are backdoor-free, even
when utilizing signals from a backdoored model. We provide a theoretical
analysis to support this finding. Our evaluation demonstrates that our
stabilized model inversion technique achieves state-of-the-art backdoor removal
performance without clean in-distribution data, matching or surpassing
performance using the same amount of clean samples.
- Abstract(参考訳): 機械学習モデルにおける多くのバックドア除去技術は、きれいな配布データを必要とするが、プロプライエタリなデータセットのために常に利用できるとは限らない。
モデル反転技術は、しばしばプライバシーの脅威と見なされるが、現実的なトレーニングサンプルを再構築し、配布データの必要性をなくす可能性がある。
バックドア除去とモデル逆転を組み合わせた以前の試みは、限られた結果をもたらした。
本研究は, モデルインバージョンを有効なバックドア除去に活用する手法として, 再構成されたサンプルの特性, 知覚的類似性, バックドアトリガの潜在的な存在に関する重要な疑問に対処する。
強固な防御には知覚的類似性のみに依存することは不十分であり、入力とパラメータの摂動に対するモデル予測の安定性も重要である。
そこで本研究では,モデルインバージョンと安定性,視覚的品質向上のための2段階最適化フレームワークを提案する。
興味深いことに、事前訓練された発電機の潜伏空間からの再構成サンプルは、バックドアモデルからの信号を利用する場合でも、バックドアフリーであることが判明した。
この発見を支持する理論的分析を提供する。
その結果,本手法は,同一量のクリーンサンプルを用いた性能の一致や超過を伴わずに,最先端のバックドア除去性能を実現した。
関連論文リスト
- Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Autoencoder Attractors for Uncertainty Estimation [13.618797548020462]
本稿では,オートエンコーダモデルに基づく不確実性推定手法を提案する。
提案手法は,車室内における占有者分類の産業的応用だけでなく,いくつかのデータセットの組み合わせについても検討した。
論文 参考訳(メタデータ) (2022-04-01T12:10:06Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Can Adversarial Weight Perturbations Inject Neural Backdoors? [22.83199547214051]
敵対的機械学習は、ニューラルネットワークのいくつかのセキュリティリスクを露呈している。
モデル重みの逆方向摂動を,元のモデルの予測に対する複合的損失を用いて導入する。
実験の結果,バックドアはモデル重量値の平均相対変化が極めて小さい状態で注入可能であることがわかった。
論文 参考訳(メタデータ) (2020-08-04T18:26:13Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。