Fugu-MT 論文翻訳(概要): CUDA: Convolution-based Unlearnable Datasets

論文の概要: CUDA: Convolution-based Unlearnable Datasets

arxiv url: http://arxiv.org/abs/2303.04278v1
Date: Tue, 7 Mar 2023 22:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-09 15:35:53.553063
Title: CUDA: Convolution-based Unlearnable Datasets
Title（参考訳）: CUDA: 畳み込みベースの未学習データセット
Authors: Vinu Sankar Sadasivan, Mahdi Soltanolkotabi, Soheil Feizi
Abstract要約: 現代のディープラーニングモデルの大規模なトレーニングは、Web上の公開データに大きく依存している。最近の研究は、小さくて特殊なノイズを加えることによって、ディープラーニングモデルのためのデータを作ることを目的としている。これらの手法は、敵の訓練(AT)に対して脆弱であり、または/または計算的に重い。
参考スコア（独自算出の注目度）: 77.70422525613084
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale training of modern deep learning models heavily relies on publicly available data on the web. This potentially unauthorized usage of online data leads to concerns regarding data privacy. Recent works aim to make unlearnable data for deep learning models by adding small, specially designed noises to tackle this issue. However, these methods are vulnerable to adversarial training (AT) and/or are computationally heavy. In this work, we propose a novel, model-free, Convolution-based Unlearnable DAtaset (CUDA) generation technique. CUDA is generated using controlled class-wise convolutions with filters that are randomly generated via a private key. CUDA encourages the network to learn the relation between filters and labels rather than informative features for classifying the clean data. We develop some theoretical analysis demonstrating that CUDA can successfully poison Gaussian mixture data by reducing the clean data performance of the optimal Bayes classifier. We also empirically demonstrate the effectiveness of CUDA with various datasets (CIFAR-10, CIFAR-100, ImageNet-100, and Tiny-ImageNet), and architectures (ResNet-18, VGG-16, Wide ResNet-34-10, DenseNet-121, DeIT, EfficientNetV2-S, and MobileNetV2). Our experiments show that CUDA is robust to various data augmentations and training approaches such as smoothing, AT with different budgets, transfer learning, and fine-tuning. For instance, training a ResNet-18 on ImageNet-100 CUDA achieves only 8.96$\%$, 40.08$\%$, and 20.58$\%$ clean test accuracies with empirical risk minimization (ERM), $L_{\infty}$ AT, and $L_{2}$ AT, respectively. Here, ERM on the clean training data achieves a clean test accuracy of 80.66$\%$. CUDA exhibits unlearnability effect with ERM even when only a fraction of the training dataset is perturbed. Furthermore, we also show that CUDA is robust to adaptive defenses designed specifically to break it.
Abstract（参考訳）: 現代のディープラーニングモデルの大規模なトレーニングは、Web上の公開データに大きく依存している。このオンラインデータの使用は、データプライバシに関する懸念につながる可能性がある。最近の研究は、この問題に対処するために、小型で特別に設計されたノイズを追加することで、ディープラーニングモデルの学習不可能なデータを作ることを目指している。しかし、これらの手法は対戦訓練(AT)や計算量に弱い。本研究では,新しいモデルフリーな畳み込み型非学習型データセット(cuda)生成手法を提案する。 CUDAは、秘密鍵を介してランダムに生成されるフィルタで制御されたクラスワイズ畳み込みを用いて生成される。 CUDAは、クリーンなデータを分類するための情報的特徴よりも、フィルタとラベルの関係を学ぶことをネットワークに推奨する。最適ベイズ分類器のクリーンデータ性能を低減し, CUDAがガウス混合データに有意な毒性を与えることを示す理論的解析法を開発した。また,各種データセット (CIFAR-10, CIFAR-100, ImageNet-100, Tiny-ImageNet) とアーキテクチャ (ResNet-18, VGG-16, Wide ResNet-34-10, DenseNet-121, DeIT, EfficientNetV2-S, MobileNetV2) でCUDAの有効性を実証的に実証した。実験の結果,CUDAはスムーシング,AT,トランスファーラーニング,微調整など,さまざまなデータ拡張やトレーニングアプローチに対して堅牢であることがわかった。例えば、ImageNet-100 CUDA 上で ResNet-18 をトレーニングすると、それぞれ 8.96$\%$、40.08$\%$、20.58$\%$クリーンなテスト精度と経験的リスク最小化(ERM)、$L_{\infty}$ AT、$L_{2}$ AT が達成される。ここで、クリーントレーニングデータ上のERMは、80.66$\%のクリーンテスト精度を達成する。 CUDAは、トレーニングデータセットのごく一部が摂動した場合でも、ERMによる非学習性効果を示す。さらに、CUDAは、それを壊すために設計された適応防御に対して堅牢であることを示す。

関連論文リスト

Info-Coevolution: An Efficient Framework for Data Model Coevolution [11.754869657967207]
モデルとデータをバイアスのないオンライン選択アノテーションで共進化させる新しいフレームワークを提案する。 ImageNet-1Kのような現実世界のデータセットでは、Info-Coevolutionはアノテーションとトレーニングコストをパフォーマンス損失なく32%削減する。
論文参考訳（メタデータ） (2025-06-09T17:04:11Z)
Learning from Convolution-based Unlearnable Datastes [5.332412565926725]
ConlearnベースのUnlearnable DAtaset(CUDA)メソッドは、データセット内のすべてのイメージにクラスワイドなぼかしを適用することによって、データを学習不能にすることを目的としている。本研究は,画像のシャープ化と周波数フィルタリングにより,データが未学習のままであるか否かを評価する。学習不能なデータを用いて学習したモデルに対して,逆行訓練によるテスト精度の大幅な向上を観察する。
論文参考訳（メタデータ） (2024-11-04T01:51:50Z)
Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文参考訳（メタデータ） (2024-04-10T17:27:54Z)
Effective pruning of web-scale datasets based on complexity of concept clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文参考訳（メタデータ） (2024-01-09T14:32:24Z)
KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文参考訳（メタデータ） (2023-10-16T06:19:29Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
Filter Pruning for Efficient CNNs via Knowledge-driven Differential Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文参考訳（メタデータ） (2023-07-01T02:28:41Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Machine learning for complete intersection Calabi-Yau manifolds: a methodological study [0.0]
我々は機械学習(ML)を用いてホッジ数$h1,1$と$h2,1$の完全なカラビ・ヤウ交差点を予測する問題を再考する。我々は、古いデータセットのインセプションモデルにインスパイアされたニューラルネットワークを使用して、トレーニング用のデータの30% (resp. 70%) のみを使用して、97% (resp. 99%) の精度で$h1,1$を得る。新しい例では、単純な線形回帰は、トレーニング用のデータの30%でほぼ100%の正確性をもたらす。
論文参考訳（メタデータ） (2020-07-30T19:43:49Z)
Passive Batch Injection Training Technique: Boosting Network Performance by Injecting Mini-Batches from a different Data Distribution [39.8046809855363]
この研究は、元の入力データとは異なる分布から追加のデータを利用するディープニューラルネットワークの新しいトレーニング手法を提案する。私たちの知る限りでは、畳み込みニューラルネットワーク(CNN)のトレーニングを支援するために、異なるデータ分散を利用する最初の研究である。
論文参考訳（メタデータ） (2020-06-08T08:17:32Z)
Identifying and Compensating for Feature Deviation in Imbalanced Deep Learning [59.65752299209042]
このようなシナリオ下でのConvNetの学習について検討する。私たちは、ConvNetがマイナーなクラスにかなり適合していることに気づきました。クラス依存型温度トレーニング(CDT)のConvNetの導入を提案する。
論文参考訳（メタデータ） (2020-01-06T03:52:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。