論文の概要: Indiscriminate Data Poisoning Attacks on Pre-trained Feature Extractors
- arxiv url: http://arxiv.org/abs/2402.12626v1
- Date: Tue, 20 Feb 2024 01:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:34:11.446949
- Title: Indiscriminate Data Poisoning Attacks on Pre-trained Feature Extractors
- Title(参考訳): 事前訓練された特徴量外乱に対する無差別データ中毒攻撃
- Authors: Yiwei Lu, Matthew Y.R. Yang, Gautam Kamath, Yaoliang Yu
- Abstract要約: 本稿では,事前訓練した特徴抽出器を応用した下流タスクに対する無差別攻撃の脅威について検討する。
入力空間攻撃とは,(1)既存の攻撃を修正して入力空間に有毒なデータを作る攻撃と,(2)学習した特徴表現をデータセットとして扱うことで有毒な特徴を見つける攻撃である。
実験では、同じデータセット上の微調整やドメイン適応を考慮した転帰学習など、下流の一般的なタスクにおける攻撃について検討した。
- 参考スコア(独自算出の注目度): 26.36344184385407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models have achieved great success in supervised learning
tasks for end-to-end training, which requires a large amount of labeled data
that is not always feasible. Recently, many practitioners have shifted to
self-supervised learning methods that utilize cheap unlabeled data to learn a
general feature extractor via pre-training, which can be further applied to
personalized downstream tasks by simply training an additional linear layer
with limited labeled data. However, such a process may also raise concerns
regarding data poisoning attacks. For instance, indiscriminate data poisoning
attacks, which aim to decrease model utility by injecting a small number of
poisoned data into the training set, pose a security risk to machine learning
models, but have only been studied for end-to-end supervised learning. In this
paper, we extend the exploration of the threat of indiscriminate attacks on
downstream tasks that apply pre-trained feature extractors. Specifically, we
propose two types of attacks: (1) the input space attacks, where we modify
existing attacks to directly craft poisoned data in the input space. However,
due to the difficulty of optimization under constraints, we further propose (2)
the feature targeted attacks, where we mitigate the challenge with three
stages, firstly acquiring target parameters for the linear head; secondly
finding poisoned features by treating the learned feature representations as a
dataset; and thirdly inverting the poisoned features back to the input space.
Our experiments examine such attacks in popular downstream tasks of fine-tuning
on the same dataset and transfer learning that considers domain adaptation.
Empirical results reveal that transfer learning is more vulnerable to our
attacks. Additionally, input space attacks are a strong threat if no
countermeasures are posed, but are otherwise weaker than feature targeted
attacks.
- Abstract(参考訳): マシンラーニングモデルは、エンドツーエンドのトレーニングのために教師付き学習タスクで大きな成功を収めています。
近年、多くの実践者は、安価なラベル付きデータを利用して、事前学習を通じて一般的な特徴抽出器を学習する自己教師型学習方法に移行し、ラベル付きデータに制限された追加の線形層をトレーニングすることで、個人化された下流タスクにさらに適用することができる。
しかし、このようなプロセスは、データ中毒攻撃に対する懸念も引き起こす可能性がある。
例えば、少量の有毒データをトレーニングセットに注入してモデルユーティリティを減らすことを目的とした無差別なデータ中毒攻撃は、マシンラーニングモデルにセキュリティリスクをもたらすが、エンドツーエンドの教師あり学習でのみ研究されている。
本稿では,事前訓練した特徴抽出器を応用した下流タスクに対する無差別攻撃の脅威を探究する。
具体的には、(1)入力空間攻撃、(2)既存の攻撃を修正して入力空間に有毒なデータを直接作成する2種類の攻撃を提案する。
しかし, 制約下での最適化の難しさから, 2) 課題を3段階に緩和し, まずは線形頭部の目標パラメータを抽出し, 2つ目は, 学習した特徴表現をデータセットとして扱い, 3つ目は, 有毒な特徴を入力空間に逆転させることによって有毒な特徴を見つけることを提案する。
実験では、同じデータセット上の微調整やドメイン適応を考慮した転帰学習などの下流タスクにおける攻撃について検討した。
実験の結果、トランスファー学習は攻撃に対してより脆弱であることが判明した。
さらに、入力空間攻撃は、対策が講じられなければ強い脅威であるが、特徴的攻撃よりも弱い。
関連論文リスト
- Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks [11.390175856652856]
クリーンラベル攻撃は、毒性のあるデータのラベルを変更することなく攻撃を行うことができる、よりステルスなバックドア攻撃である。
本研究は,攻撃成功率を高めるために,標的クラス内の少数の訓練サンプルを選択的に毒殺する方法について検討した。
私たちの脅威モデルは、サードパーティのデータセットで機械学習モデルをトレーニングする上で深刻な脅威となる。
論文 参考訳(メタデータ) (2024-07-15T15:38:21Z) - Transferable Availability Poisoning Attacks [23.241524904589326]
我々は、機械学習モデルの総合的なテスト精度を低下させることを目的とした、アベイラビリティーデータ中毒攻撃について検討する。
既存の毒殺対策は攻撃目標を達成することができるが、被害者は敵が攻撃をマウントするために使用するものと同じ学習方法を採用すると仮定する。
本稿では,まずアライメントと均一性の本質的な特性を活用して,非学習性を向上するTransferable Poisoningを提案する。
論文 参考訳(メタデータ) (2023-10-08T12:22:50Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Adversarial Attacks are a Surprisingly Strong Baseline for Poisoning
Few-Shot Meta-Learners [28.468089304148453]
これにより、システムの学習アルゴリズムを騙すような、衝突する入力セットを作れます。
ホワイトボックス環境では、これらの攻撃は非常に成功しており、ターゲットモデルの予測が偶然よりも悪化する可能性があることを示す。
攻撃による「過度な対応」と、攻撃が生成されたモデルと攻撃が転送されたモデルとのミスマッチという2つの仮説を探索する。
論文 参考訳(メタデータ) (2022-11-23T14:55:44Z) - Amplifying Membership Exposure via Data Poisoning [18.799570863203858]
本稿では,データ中毒の第3タイプについて検討し,良心的トレーニングサンプルのプライバシー漏洩リスクを高めることを目的とした。
そこで本研究では,対象クラスの加入者への露出を増幅するために,データ中毒攻撃のセットを提案する。
この結果から,提案手法は,テスト時間モデルの性能劣化を最小限に抑えることで,メンバーシップ推定精度を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-01T13:52:25Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - Indiscriminate Poisoning Attacks Are Shortcuts [77.38947817228656]
その結果, 標的ラベルを付与した場合, 進行性毒素攻撃の摂動は, ほぼ分離可能であることがわかった。
このような合成摂動は、故意に作られた攻撃と同じくらい強力であることを示す。
我々の発見は、アンフショートカット学習の問題が以前考えられていたよりも深刻であることを示唆している。
論文 参考訳(メタデータ) (2021-11-01T12:44:26Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - Gradient-based Data Subversion Attack Against Binary Classifiers [9.414651358362391]
本研究では,攻撃者がラベルのラベルに毒を盛り,システムの機能を損なうようなラベル汚染攻撃に焦点を当てる。
我々は、予測ラベルに対する微分可能凸損失関数の勾配をウォームスタートとして利用し、汚染するデータインスタンスの集合を見つけるための異なる戦略を定式化する。
本実験は,提案手法がベースラインより優れ,計算効率が高いことを示す。
論文 参考訳(メタデータ) (2021-05-31T09:04:32Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。