論文の概要: CUDA: Convolution-based Unlearnable Datasets
- arxiv url: http://arxiv.org/abs/2303.04278v1
- Date: Tue, 7 Mar 2023 22:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:35:53.553063
- Title: CUDA: Convolution-based Unlearnable Datasets
- Title(参考訳): CUDA: 畳み込みベースの未学習データセット
- Authors: Vinu Sankar Sadasivan, Mahdi Soltanolkotabi, Soheil Feizi
- Abstract要約: 現代のディープラーニングモデルの大規模なトレーニングは、Web上の公開データに大きく依存している。
最近の研究は、小さくて特殊なノイズを加えることによって、ディープラーニングモデルのためのデータを作ることを目的としている。
これらの手法は、敵の訓練(AT)に対して脆弱であり、または/または計算的に重い。
- 参考スコア(独自算出の注目度): 77.70422525613084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale training of modern deep learning models heavily relies on
publicly available data on the web. This potentially unauthorized usage of
online data leads to concerns regarding data privacy. Recent works aim to make
unlearnable data for deep learning models by adding small, specially designed
noises to tackle this issue. However, these methods are vulnerable to
adversarial training (AT) and/or are computationally heavy. In this work, we
propose a novel, model-free, Convolution-based Unlearnable DAtaset (CUDA)
generation technique. CUDA is generated using controlled class-wise
convolutions with filters that are randomly generated via a private key. CUDA
encourages the network to learn the relation between filters and labels rather
than informative features for classifying the clean data. We develop some
theoretical analysis demonstrating that CUDA can successfully poison Gaussian
mixture data by reducing the clean data performance of the optimal Bayes
classifier. We also empirically demonstrate the effectiveness of CUDA with
various datasets (CIFAR-10, CIFAR-100, ImageNet-100, and Tiny-ImageNet), and
architectures (ResNet-18, VGG-16, Wide ResNet-34-10, DenseNet-121, DeIT,
EfficientNetV2-S, and MobileNetV2). Our experiments show that CUDA is robust to
various data augmentations and training approaches such as smoothing, AT with
different budgets, transfer learning, and fine-tuning. For instance, training a
ResNet-18 on ImageNet-100 CUDA achieves only 8.96$\%$, 40.08$\%$, and 20.58$\%$
clean test accuracies with empirical risk minimization (ERM), $L_{\infty}$ AT,
and $L_{2}$ AT, respectively. Here, ERM on the clean training data achieves a
clean test accuracy of 80.66$\%$. CUDA exhibits unlearnability effect with ERM
even when only a fraction of the training dataset is perturbed. Furthermore, we
also show that CUDA is robust to adaptive defenses designed specifically to
break it.
- Abstract(参考訳): 現代のディープラーニングモデルの大規模なトレーニングは、Web上の公開データに大きく依存している。
このオンラインデータの使用は、データプライバシに関する懸念につながる可能性がある。
最近の研究は、この問題に対処するために、小型で特別に設計されたノイズを追加することで、ディープラーニングモデルの学習不可能なデータを作ることを目指している。
しかし、これらの手法は対戦訓練(AT)や計算量に弱い。
本研究では,新しいモデルフリーな畳み込み型非学習型データセット(cuda)生成手法を提案する。
CUDAは、秘密鍵を介してランダムに生成されるフィルタで制御されたクラスワイズ畳み込みを用いて生成される。
CUDAは、クリーンなデータを分類するための情報的特徴よりも、フィルタとラベルの関係を学ぶことをネットワークに推奨する。
最適ベイズ分類器のクリーンデータ性能を低減し, CUDAがガウス混合データに有意な毒性を与えることを示す理論的解析法を開発した。
また,各種データセット (CIFAR-10, CIFAR-100, ImageNet-100, Tiny-ImageNet) とアーキテクチャ (ResNet-18, VGG-16, Wide ResNet-34-10, DenseNet-121, DeIT, EfficientNetV2-S, MobileNetV2) でCUDAの有効性を実証的に実証した。
実験の結果,CUDAはスムーシング,AT,トランスファーラーニング,微調整など,さまざまなデータ拡張やトレーニングアプローチに対して堅牢であることがわかった。
例えば、ImageNet-100 CUDA 上で ResNet-18 をトレーニングすると、それぞれ 8.96$\%$、40.08$\%$、20.58$\%$クリーンなテスト精度と経験的リスク最小化(ERM)、$L_{\infty}$ AT、$L_{2}$ AT が達成される。
ここで、クリーントレーニングデータ上のERMは、80.66$\%のクリーンテスト精度を達成する。
CUDAは、トレーニングデータセットのごく一部が摂動した場合でも、ERMによる非学習性効果を示す。
さらに、CUDAは、それを壊すために設計された適応防御に対して堅牢であることを示す。
関連論文リスト
- Learning from Convolution-based Unlearnable Datastes [5.332412565926725]
ConlearnベースのUnlearnable DAtaset(CUDA)メソッドは、データセット内のすべてのイメージにクラスワイドなぼかしを適用することによって、データを学習不能にすることを目的としている。
本研究は,画像のシャープ化と周波数フィルタリングにより,データが未学習のままであるか否かを評価する。
学習不能なデータを用いて学習したモデルに対して,逆行訓練によるテスト精度の大幅な向上を観察する。
論文 参考訳(メタデータ) (2024-11-04T01:51:50Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Passive Batch Injection Training Technique: Boosting Network Performance
by Injecting Mini-Batches from a different Data Distribution [39.8046809855363]
この研究は、元の入力データとは異なる分布から追加のデータを利用するディープニューラルネットワークの新しいトレーニング手法を提案する。
私たちの知る限りでは、畳み込みニューラルネットワーク(CNN)のトレーニングを支援するために、異なるデータ分散を利用する最初の研究である。
論文 参考訳(メタデータ) (2020-06-08T08:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。