Fugu-MT 論文翻訳(概要): Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free Backdoor Removal via Stabilized Model Inversion

論文の概要: Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free Backdoor Removal via Stabilized Model Inversion

arxiv url: http://arxiv.org/abs/2206.07018v3
Date: Fri, 24 Mar 2023 01:32:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-27 18:51:36.555199
Title: Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free Backdoor Removal via Stabilized Model Inversion
Title（参考訳）: 呪いを祝福に変える - 安定化モデルインバージョンによる分散データ不要バックドアの除去を可能にする
Authors: Si Chen, Yi Zeng, Jiachen T.Wang, Won Park, Xun Chen, Lingjuan Lyu, Zhuoqing Mao, Ruoxi Jia
Abstract要約: モデル逆転のための二段階最適化に基づく新しいフレームワークを提案する。事前学習した発電機の潜伏空間から得られたサンプルは, バックドアモデルからの信号を利用した場合であっても, バックドアフリーであることが判明した。
参考スコア（独自算出の注目度）: 27.294396320665594
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many backdoor removal techniques in machine learning models require clean in-distribution data, which may not always be available due to proprietary datasets. Model inversion techniques, often considered privacy threats, can reconstruct realistic training samples, potentially eliminating the need for in-distribution data. Prior attempts to combine backdoor removal and model inversion yielded limited results. Our work is the first to provide a thorough understanding of leveraging model inversion for effective backdoor removal by addressing key questions about reconstructed samples' properties, perceptual similarity, and the potential presence of backdoor triggers. We establish that relying solely on perceptual similarity is insufficient for robust defenses, and the stability of model predictions in response to input and parameter perturbations is also crucial. To tackle this, we introduce a novel bi-level optimization-based framework for model inversion, promoting stability and visual quality. Interestingly, we discover that reconstructed samples from a pre-trained generator's latent space are backdoor-free, even when utilizing signals from a backdoored model. We provide a theoretical analysis to support this finding. Our evaluation demonstrates that our stabilized model inversion technique achieves state-of-the-art backdoor removal performance without clean in-distribution data, matching or surpassing performance using the same amount of clean samples.
Abstract（参考訳）: 機械学習モデルにおける多くのバックドア除去技術は、きれいな配布データを必要とするが、プロプライエタリなデータセットのために常に利用できるとは限らない。モデル反転技術は、しばしばプライバシーの脅威と見なされるが、現実的なトレーニングサンプルを再構築し、配布データの必要性をなくす可能性がある。バックドア除去とモデル逆転を組み合わせた以前の試みは、限られた結果をもたらした。本研究は, モデルインバージョンを有効なバックドア除去に活用する手法として, 再構成されたサンプルの特性, 知覚的類似性, バックドアトリガの潜在的な存在に関する重要な疑問に対処する。強固な防御には知覚的類似性のみに依存することは不十分であり、入力とパラメータの摂動に対するモデル予測の安定性も重要である。そこで本研究では,モデルインバージョンと安定性,視覚的品質向上のための2段階最適化フレームワークを提案する。興味深いことに、事前訓練された発電機の潜伏空間からの再構成サンプルは、バックドアモデルからの信号を利用する場合でも、バックドアフリーであることが判明した。この発見を支持する理論的分析を提供する。その結果,本手法は,同一量のクリーンサンプルを用いた性能の一致や超過を伴わずに,最先端のバックドア除去性能を実現した。

関連論文リスト

REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文参考訳（メタデータ） (2025-02-22T07:29:12Z)
TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。 TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文参考訳（メタデータ） (2024-09-09T03:02:16Z)
Prototype Clustered Diffusion Models for Versatile Inverse Problems [11.55838697574475]
測定に基づく確率は、逆の確率的図形方向を通した復元に基づく確率で再現可能であることを示す。提案手法は, サンプル品質を考慮に入れた逆問題に対処し, 精度の高い劣化制御を実現する。
論文参考訳（メタデータ） (2024-07-13T04:24:53Z)
Mitigating Backdoor Attacks using Activation-Guided Model Editing [8.00994004466919]
バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
論文参考訳（メタデータ） (2024-07-10T13:43:47Z)
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文参考訳（メタデータ） (2024-05-01T12:03:39Z)
Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文参考訳（メタデータ） (2023-10-28T08:21:16Z)
Leveraging Diffusion-Based Image Variations for Robust Training on Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-10T07:25:06Z)
Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文参考訳（メタデータ） (2023-07-20T03:56:04Z)
Robust Transferable Feature Extractors: Learning to Defend Pre-Trained Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文参考訳（メタデータ） (2022-09-14T21:09:34Z)
Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文参考訳（メタデータ） (2021-08-26T17:55:11Z)
Automatic Recall Machines: Internal Replay, Continual Learning and the Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文参考訳（メタデータ） (2020-06-22T15:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。