論文の概要: ARMOR: Shielding Unlearnable Examples against Data Augmentation
- arxiv url: http://arxiv.org/abs/2501.08862v1
- Date: Wed, 15 Jan 2025 15:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:31.211023
- Title: ARMOR: Shielding Unlearnable Examples against Data Augmentation
- Title(参考訳): ARMOR:データ拡張に対して未解決の例をシールドする
- Authors: Xueluan Gong, Yuji Wang, Yanjiao Chen, Haocheng Dong, Yiming Li, Mengyuan Sun, Shuaike Li, Qian Wang, Chen Chen,
- Abstract要約: 我々は、データ拡張の潜在的な侵害からデータプライバシを保護するためのフレームワークARMORを提案する。
ARMORは、強化された保護されたサンプルでトレーニングされたモデルのテスト精度を、ベースラインよりも60%以上削減する。
- 参考スコア(独自算出の注目度): 25.289775916629505
- License:
- Abstract: Private data, when published online, may be collected by unauthorized parties to train deep neural networks (DNNs). To protect privacy, defensive noises can be added to original samples to degrade their learnability by DNNs. Recently, unlearnable examples are proposed to minimize the training loss such that the model learns almost nothing. However, raw data are often pre-processed before being used for training, which may restore the private information of protected data. In this paper, we reveal the data privacy violation induced by data augmentation, a commonly used data pre-processing technique to improve model generalization capability, which is the first of its kind as far as we are concerned. We demonstrate that data augmentation can significantly raise the accuracy of the model trained on unlearnable examples from 21.3% to 66.1%. To address this issue, we propose a defense framework, dubbed ARMOR, to protect data privacy from potential breaches of data augmentation. To overcome the difficulty of having no access to the model training process, we design a non-local module-assisted surrogate model that better captures the effect of data augmentation. In addition, we design a surrogate augmentation selection strategy that maximizes distribution alignment between augmented and non-augmented samples, to choose the optimal augmentation strategy for each class. We also use a dynamic step size adjustment algorithm to enhance the defensive noise generation process. Extensive experiments are conducted on 4 datasets and 5 data augmentation methods to verify the performance of ARMOR. Comparisons with 6 state-of-the-art defense methods have demonstrated that ARMOR can preserve the unlearnability of protected private data under data augmentation. ARMOR reduces the test accuracy of the model trained on augmented protected samples by as much as 60% more than baselines.
- Abstract(参考訳): プライベートデータは、オンラインに公開された場合、ディープニューラルネットワーク(DNN)をトレーニングするために、未許可の当事者によって収集される可能性がある。
プライバシを保護するため、元のサンプルに防御ノイズを追加して、DNNによる学習性を低下させることができる。
近年、モデルはほとんど何も学習しないようにトレーニング損失を最小限に抑えるために、学習不可能な例が提案されている。
しかし、生データはトレーニングに使用される前に前処理されることが多く、保護されたデータの個人情報を復元する可能性がある。
本稿では,データ拡張によって引き起こされるデータプライバシ侵害を明らかにする。モデル一般化能力を改善するために一般的に使用されるデータ前処理技術である。
データの増大は、学習不可能な例で訓練されたモデルの精度を21.3%から66.1%に著しく向上させることを示した。
この問題に対処するため、ARMORと呼ばれる防衛フレームワークを提案し、データ拡張の潜在的な侵害からデータプライバシを保護する。
モデルトレーニングプロセスにアクセスできないことの難しさを克服するため,データ拡張の効果をよりよく捉えた非局所的なモジュール支援サロゲートモデルを設計する。
さらに,各クラスに対して最適な増補戦略を選択するために,増補標本と非増補標本の分配アライメントを最大化する代理増補選択戦略を設計する。
また、動的ステップサイズ調整アルゴリズムを用いて、防御音発生プロセスを強化する。
ARMORの性能を検証するために,4つのデータセットと5つのデータ拡張手法で大規模な実験を行う。
6つの最先端の防衛手法との比較により、ARMORはデータ拡張の下で保護されたプライベートデータの未発生性を維持できることが示されている。
ARMORは、強化された保護されたサンプルでトレーニングされたモデルのテスト精度を、ベースラインよりも60%以上削減する。
関連論文リスト
- How Much Do Code Language Models Remember? An Investigation on Data Extraction Attacks before and after Fine-tuning [2.3759432635713895]
我々は、事前訓練されたコード言語モデルと微調整されたコード言語モデルの両方を攻撃し、データの抽出可能性について調査する。
微調整は少ないリソースを必要とし、その特殊データに対する有効性のために、小規模でも大規模でもますます利用されている。
データキャリアとライセンス情報は、事前訓練されたモデルと微調整されたモデルから記憶される可能性が最も高い一方、後者は微調整後に忘れられる可能性が最も高い。
論文 参考訳(メタデータ) (2025-01-29T09:17:30Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - The Devil's Advocate: Shattering the Illusion of Unexploitable Data
using Diffusion Models [14.018862290487617]
データ保護の摂動に対抗して、慎重に設計された分極処理が可能であることを示す。
AVATARと呼ばれる我々のアプローチは、最近のアベイラビリティーアタックに対して最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-03-15T10:20:49Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - DAD: Data-free Adversarial Defense at Test Time [21.741026088202126]
ディープモデルは敵の攻撃に非常に敏感である。
プライバシは、トレーニングデータではなく、トレーニングされたモデルのみへのアクセスを制限する、重要な関心事になっている。
我々は,「訓練データと統計値の欠如によるテスト時敵防衛」という全く新しい問題を提案する。
論文 参考訳(メタデータ) (2022-04-04T15:16:13Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。