論文の概要: Backdoor Attacks against Transfer Learning with Pre-trained Deep
Learning Models
- arxiv url: http://arxiv.org/abs/2001.03274v2
- Date: Thu, 12 Mar 2020 10:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:40:58.150872
- Title: Backdoor Attacks against Transfer Learning with Pre-trained Deep
Learning Models
- Title(参考訳): 事前学習モデルを用いた転校学習に対するバックドア攻撃
- Authors: Shuo Wang, Surya Nepal, Carsten Rudolph, Marthie Grobler, Shangyu
Chen, Tianle Chen
- Abstract要約: 転送学習は、精度の高いTextitStudentモデルの実現可能性と高速なカスタマイズのための効果的なソリューションを提供する。
多くの事前訓練された教師モデルは公開されており、公開プラットフォームによって維持されており、バックドア攻撃に対する脆弱性が増大している。
本研究では,教師の知識を活かした画像データと時系列データの両方で学習タスクを伝達するバックドアの脅威を実証する。
- 参考スコア(独自算出の注目度): 23.48763375455514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning provides an effective solution for feasibly and fast
customize accurate \textit{Student} models, by transferring the learned
knowledge of pre-trained \textit{Teacher} models over large datasets via
fine-tuning. Many pre-trained Teacher models used in transfer learning are
publicly available and maintained by public platforms, increasing their
vulnerability to backdoor attacks. In this paper, we demonstrate a backdoor
threat to transfer learning tasks on both image and time-series data leveraging
the knowledge of publicly accessible Teacher models, aimed at defeating three
commonly-adopted defenses: \textit{pruning-based}, \textit{retraining-based}
and \textit{input pre-processing-based defenses}. Specifically, (A)
ranking-based selection mechanism to speed up the backdoor trigger generation
and perturbation process while defeating \textit{pruning-based} and/or
\textit{retraining-based defenses}. (B) autoencoder-powered trigger generation
is proposed to produce a robust trigger that can defeat the \textit{input
pre-processing-based defense}, while guaranteeing that selected neuron(s) can
be significantly activated. (C) defense-aware retraining to generate the
manipulated model using reverse-engineered model inputs.
We launch effective misclassification attacks on Student models over
real-world images, brain Magnetic Resonance Imaging (MRI) data and
Electrocardiography (ECG) learning systems. The experiments reveal that our
enhanced attack can maintain the $98.4\%$ and $97.2\%$ classification accuracy
as the genuine model on clean image and time series inputs respectively while
improving $27.9\%-100\%$ and $27.1\%-56.1\%$ attack success rate on trojaned
image and time series inputs respectively in the presence of pruning-based
and/or retraining-based defenses.
- Abstract(参考訳): 転送学習は、訓練済みの \textit{Teacher} モデルの学習知識を、微調整によって大きなデータセットに転送することで、実現可能かつ高速なカスタマイズが可能な、正確な \textit{Student} モデルのための効果的なソリューションを提供する。
トランスファーラーニングで使用される多くの事前訓練された教師モデルは、公開プラットフォームによって公開され、維持されており、バックドア攻撃に対する脆弱性が増大している。
本稿では,一般的に採用されている3つの防御を破ることを目的とした,公開アクセス可能な教師モデルの知識を活用した,画像データと時系列データの両方における学習タスクを転送するバックドアの脅威を実証する。
具体的には、(a)バックドアトリガ生成と摂動プロセスを高速化するランキングベースの選択機構で、 \textit{pruning-based} と \textit{retraining-based defenses} を破る。
(B) オートエンコーダによるトリガー生成は、選択されたニューロンが著しく活性化されることを保証しながら、 \textit{input pre-processing-based Defense} を破ることができるロバストトリガーを生成する。
c) リバースエンジニアリングモデル入力を用いた制御モデル生成のための防御アウェアリトレーニング。
脳磁気共鳴画像(MRI)データと心電図(ECG)学習システムを用いた学生モデルに対する効果的な誤分類攻撃を開始する。
実験により,本攻撃は,画像および時系列入力の真正なモデルとして,98.4\%$と97.2\%$の識別精度を維持しつつ,トロイの木馬による画像および時系列入力に対して,27.9\%-100\%$と27.1\%-56.1\%$のアタック成功率を改善することができた。
関連論文リスト
- Memory Backdoor Attacks on Neural Networks [3.2720947374803777]
本稿では,特定のトレーニングサンプルに対してモデルを秘密裏に訓練し,後に選択的に出力するメモリバックドア攻撃を提案する。
画像分類器、セグメンテーションモデル、および大規模言語モデル(LLM)に対する攻撃を実証する。
論文 参考訳(メタデータ) (2024-11-21T16:09:16Z) - Undermining Image and Text Classification Algorithms Using Adversarial Attacks [0.0]
本研究は,各種機械学習モデルを訓練し,GANとSMOTEを用いてテキスト分類モデルへの攻撃を目的とした追加データポイントを生成することにより,そのギャップを解消する。
実験の結果,分類モデルの重大な脆弱性が明らかとなった。特に,攻撃後の最上位のテキスト分類モデルの精度が20%低下し,顔認識精度が30%低下した。
論文 参考訳(メタデータ) (2024-11-03T18:44:28Z) - Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing [21.52641337754884]
ある種の敵攻撃は、トレーニングデータセットを汚染することで、機械学習モデルの振る舞いを操作できる。
EDTモデル, textbfEfficient, textbfData-free, textbfTraining-free バックドアアタック手法を導入する。
モデル編集技術にインスパイアされたEDTは、編集ベースの軽量コードブックを、大規模な事前訓練されたモデルのバックドアに注入する。
論文 参考訳(メタデータ) (2024-10-23T20:32:14Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。
トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。
提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文 参考訳(メタデータ) (2024-06-18T23:04:38Z) - Manipulating and Mitigating Generative Model Biases without Retraining [49.60774626839712]
モデル再学習を伴わないリッチ言語埋め込み空間を利用して,T2Iモデルバイアスの動的かつ効率的な操作を提案する。
基礎ベクトル代数を利用することで、T2Iモデルの出力をシフトさせる言語モデルの埋め込みを便利に制御できることを示す。
副産物として、この制御は正確なプロンプト工学の一形態として機能し、通常のテキストプロンプトを使って一般的には理解できない画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T07:33:30Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Reconstructing Training Data with Informed Adversaries [30.138217209991826]
機械学習モデルへのアクセスを考えると、敵はモデルのトレーニングデータを再構築できるだろうか?
本研究は、この疑問を、学習データポイントの全てを知っている強力な情報提供者のレンズから研究する。
この厳密な脅威モデルにおいて、残りのデータポイントを再構築することは可能であることを示す。
論文 参考訳(メタデータ) (2022-01-13T09:19:25Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。