論文の概要: Pre-trained Adversarial Perturbations
- arxiv url: http://arxiv.org/abs/2210.03372v1
- Date: Fri, 7 Oct 2022 07:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 12:57:10.591725
- Title: Pre-trained Adversarial Perturbations
- Title(参考訳): 逆行性摂動の事前訓練
- Authors: Yuanhao Ban, Yinpeng Dong
- Abstract要約: PAP(Pre-trained Adversarial Perturbations)は、訓練済みモデルが微調整されたモデルを攻撃する際の有効性を維持するために考案された、普遍的な摂動である。
トレーニング済みモデルの低レベル層のニューロン活性化を解除し,有効なPAPを生成する低レベル層リフティングアタック(L4A)法を提案する。
通常の訓練済み視覚モデルと10のダウンストリームタスクの実験により、我々の手法は最先端の手法と比較して、攻撃成功率を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 16.95886568770364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised pre-training has drawn increasing attention in recent years
due to its superior performance on numerous downstream tasks after fine-tuning.
However, it is well-known that deep learning models lack the robustness to
adversarial examples, which can also invoke security issues to pre-trained
models, despite being less explored. In this paper, we delve into the
robustness of pre-trained models by introducing Pre-trained Adversarial
Perturbations (PAPs), which are universal perturbations crafted for the
pre-trained models to maintain the effectiveness when attacking fine-tuned ones
without any knowledge of the downstream tasks. To this end, we propose a
Low-Level Layer Lifting Attack (L4A) method to generate effective PAPs by
lifting the neuron activations of low-level layers of the pre-trained models.
Equipped with an enhanced noise augmentation strategy, L4A is effective at
generating more transferable PAPs against fine-tuned models. Extensive
experiments on typical pre-trained vision models and ten downstream tasks
demonstrate that our method improves the attack success rate by a large margin
compared with state-of-the-art methods.
- Abstract(参考訳): 近年,微調整後のダウンストリームタスク数が多いため,自己教師付き事前学習が注目されている。
しかし、ディープラーニングモデルには敵の例に対する堅牢性が欠如していることはよく知られている。
本稿では, 事前学習モデルに対して, 下流タスクの知識のない微調整モデルを攻撃する際の有効性を維持するために, 訓練済みモデルに対する普遍的な摂動であるPAP(Pre-trained Adversarial Perturbations)を導入することにより, 事前学習モデルの堅牢性を検討する。
そこで本研究では,学習済みモデルの低レベル層のニューロン活性化を引き上げることにより,有効なPAPを生成するL4A法を提案する。
改良されたノイズ増強戦略により、L4Aは微調整モデルに対してより伝達可能なPAPを生成するのに効果的である。
一般的な事前訓練された視覚モデルと10個の下流タスクに関する広範囲な実験により,本手法は最先端手法に比べて攻撃成功率を高いマージンで改善することを示した。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - SOPHON: Non-Fine-Tunable Learning to Restrain Task Transferability For Pre-trained Models [19.41370590658815]
強力な事前訓練されたモデルは、非倫理的または違法なタスクに誤用される可能性がある。
先駆的な学習パラダイムであるNon-fine-tunable Learningを導入し、事前学習されたモデルが不適切なタスクに微調整されるのを防ぐ。
本稿では、予め定義された制限ドメインで微調整された場合に抵抗する、与えられた事前学習モデルを強化する保護フレームワークSOPHONを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:07:26Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Memorization in NLP Fine-tuning Methods [34.66743495192471]
我々は,メンバシップ推論と抽出攻撃を用いた微調整手法の暗記を経験的に研究した。
モデルヘッドの微調整は攻撃に対する最も感受性が高いが、細調整された小さなアダプタは既知の抽出攻撃に対する脆弱さが低いようである。
論文 参考訳(メタデータ) (2022-05-25T05:49:31Z) - A Prompting-based Approach for Adversarial Example Generation and
Robustness Enhancement [18.532308729844598]
我々は,NLPモデルに侵入する新たなプロンプトベースの敵攻撃を提案する。
悪質な目的によってマスク・アンド・フィリングによって敵の例を生成する。
本手法は, 逆方向のサンプルを生成するのではなく, 大規模トレーニングセットに効率的に適用することができる。
論文 参考訳(メタデータ) (2022-03-21T03:21:32Z) - Efficient Adversarial Training with Transferable Adversarial Examples [58.62766224452761]
同じトレーニングプロセスにおいて、近隣のエポックからのモデル間で高い転送可能性があることが示される。
本稿では,ATTA(Adversarial Training with Transferable Adversarial Examples)を提案する。
論文 参考訳(メタデータ) (2019-12-27T03:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。