論文の概要: Turning a Curse Into a Blessing: Enabling Clean-Data-Free Defenses by
Model Inversion
- arxiv url: http://arxiv.org/abs/2206.07018v1
- Date: Tue, 14 Jun 2022 17:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 16:01:50.274269
- Title: Turning a Curse Into a Blessing: Enabling Clean-Data-Free Defenses by
Model Inversion
- Title(参考訳): 呪いを祝福に変える - モデルインバージョンによるクリーンデータフリー防御の実現
- Authors: Si Chen, Yi Zeng, Won Park, Ruoxi Jia
- Abstract要約: トレーニング済みモデルにおける潜在的なセキュリティ脆弱性を軽減するアルゴリズムフレームワークを導入する。
フレームワークのリバースエンジニアリングは、所定の事前訓練されたモデルからサンプリングされる。
得られた合成サンプルは、さまざまな防御を行うためにクリーンデータの代わりに使用することができる。
- 参考スコア(独自算出の注目度): 15.792967698806182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is becoming increasingly common to utilize pre-trained models provided by
third parties due to their convenience. At the same time, however, these models
may be vulnerable to both poisoning and evasion attacks. We introduce an
algorithmic framework that can mitigate potential security vulnerabilities in a
pre-trained model when clean data from its training distribution is unavailable
to the defender. The framework reverse-engineers samples from a given
pre-trained model. The resulting synthetic samples can then be used as a
substitute for clean data to perform various defenses. We consider two
important attack scenarios -- backdoor attacks and evasion attacks -- to
showcase the utility of synthesized samples. For both attacks, we show that
when supplied with our synthetic data, the state-of-the-art defenses perform
comparably or sometimes even better than the case when it's supplied with the
same amount of clean data.
- Abstract(参考訳): サードパーティが提供する事前学習モデルの利用が,その利便性からますます一般的になっている。
しかし同時に、これらのモデルは毒殺攻撃と脱走攻撃の両方に弱い可能性がある。
トレーニングディストリビューションからのクリーンなデータがディフェンダーに利用できない場合に、トレーニング済みモデルにおける潜在的なセキュリティ脆弱性を軽減するアルゴリズムフレームワークを導入する。
フレームワークは、所定の事前学習されたモデルからサンプルをリバースエンジニアリングする。
得られた合成サンプルは、クリーンデータの代わりに様々な防御を行うために使用できる。
合成サンプルの有用性を示すために,バックドア攻撃と回避攻撃という,2つの重要な攻撃シナリオを検討する。
どちらの攻撃も、我々の合成データによって供給された場合、最先端の防御は、同じ量のクリーンデータで供給された場合よりも、可視または時として優れた性能を発揮する。
関連論文リスト
- TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文 参考訳(メタデータ) (2024-09-09T03:02:16Z) - Prototype Clustered Diffusion Models for Versatile Inverse Problems [11.55838697574475]
測定に基づく確率は、逆の確率的図形方向を通した復元に基づく確率で再現可能であることを示す。
提案手法は, サンプル品質を考慮に入れた逆問題に対処し, 精度の高い劣化制御を実現する。
論文 参考訳(メタデータ) (2024-07-13T04:24:53Z) - Mitigating Backdoor Attacks using Activation-Guided Model Editing [8.00994004466919]
バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T13:43:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。