論文の概要: Learning from Convolution-based Unlearnable Datastes
- arxiv url: http://arxiv.org/abs/2411.01742v1
- Date: Mon, 04 Nov 2024 01:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:03.084054
- Title: Learning from Convolution-based Unlearnable Datastes
- Title(参考訳): 畳み込みに基づく未学習データから学ぶ
- Authors: Dohyun Kim, Pedro Sandoval-Segura,
- Abstract要約: ConlearnベースのUnlearnable DAtaset(CUDA)メソッドは、データセット内のすべてのイメージにクラスワイドなぼかしを適用することによって、データを学習不能にすることを目的としている。
本研究は,画像のシャープ化と周波数フィルタリングにより,データが未学習のままであるか否かを評価する。
学習不能なデータを用いて学習したモデルに対して,逆行訓練によるテスト精度の大幅な向上を観察する。
- 参考スコア(独自算出の注目度): 5.332412565926725
- License:
- Abstract: The construction of large datasets for deep learning has raised concerns regarding unauthorized use of online data, leading to increased interest in protecting data from third-parties who want to use it for training. The Convolution-based Unlearnable DAtaset (CUDA) method aims to make data unlearnable by applying class-wise blurs to every image in the dataset so that neural networks learn relations between blur kernels and labels, as opposed to informative features for classifying clean data. In this work, we evaluate whether CUDA data remains unlearnable after image sharpening and frequency filtering, finding that this combination of simple transforms improves the utility of CUDA data for training. In particular, we observe a substantial increase in test accuracy over adversarial training for models trained with CUDA unlearnable data from CIFAR-10, CIFAR-100, and ImageNet-100. In training models to high accuracy using unlearnable data, we underscore the need for ongoing refinement in data poisoning techniques to ensure data privacy. Our method opens new avenues for enhancing the robustness of unlearnable datasets by highlighting that simple methods such as sharpening and frequency filtering are capable of breaking convolution-based unlearnable datasets.
- Abstract(参考訳): ディープラーニングのための大規模なデータセットの構築は、オンラインデータの不正使用に対する懸念を高め、トレーニングに使用したいサードパーティからのデータ保護への関心が高まっている。
ConvolutionをベースとするUnlearnable DAtaset(CUDA)メソッドは、データセット内のすべてのイメージにクラスワイドなぼかしを適用して、ニューラルネットワークがクリーンなデータを分類するための情報的特徴とは対照的に、ぼかしカーネルとラベルの関係を学習できるようにすることによって、データを学習不能にすることを目的としている。
本研究では,CUDAデータに画像のシャープ化と周波数フィルタリングを施した後に学習不能のままであるか否かを検証し,この単純な変換の組み合わせにより,訓練用CUDAデータの有用性が向上することを確認した。
特に,CIFAR-10,CIFAR-100,ImageNet-100から学習したCUDAデータを用いたモデルに対して,対向訓練によるテスト精度の大幅な向上が観察された。
学習不可能なデータを使用して高精度なトレーニングモデルでは、データのプライバシを確保するために、データ中毒技術の改善を継続する必要性を強調します。
本手法は,難読データセットの堅牢性を向上するための新たな手段を開き,シャープ化や周波数フィルタリングといった単純な手法が,畳み込みベースの難読データセットを破ることができることを強調する。
関連論文リスト
- Nonlinear Transformations Against Unlearnable Datasets [4.876873339297269]
自動スクラップは、データ所有者の許可なしにディープラーニングモデルのデータを収集する一般的な方法として際立っている。
近年,このデータ収集手法に関するプライバシー問題に取り組み始めている。
学習不可能(unlearnable)な例と呼ばれるこれらのアプローチによって生成されたデータは、ディープラーニングモデルによって"学習"される。
論文 参考訳(メタデータ) (2024-06-05T03:00:47Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - CUDA: Convolution-based Unlearnable Datasets [77.70422525613084]
現代のディープラーニングモデルの大規模なトレーニングは、Web上の公開データに大きく依存している。
最近の研究は、小さくて特殊なノイズを加えることによって、ディープラーニングモデルのためのデータを作ることを目的としている。
これらの手法は、敵の訓練(AT)に対して脆弱であり、または/または計算的に重い。
論文 参考訳(メタデータ) (2023-03-07T22:57:23Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Investigating a Baseline Of Self Supervised Learning Towards Reducing
Labeling Costs For Image Classification [0.0]
この研究は、Kaggle.comの cat-vs-dogs データセット Mnist と Fashion-Mnist を実装し、自己教師型学習タスクを調査している。
その結果、自己教師型学習におけるプレテキスト処理は、下流分類タスクの約15%の精度を向上させることがわかった。
論文 参考訳(メタデータ) (2021-08-17T06:43:05Z) - IADA: Iterative Adversarial Data Augmentation Using Formal Verification
and Expert Guidance [1.599072005190786]
本稿では,ニューラルネットワークモデルを学習するための反復的逆データ拡張フレームワークを提案する。
提案するフレームワークは,人工的な2Dデータセット,MNISTデータセット,人間の動作データセットに適用される。
学習モデルのロバスト性や精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-08-16T03:05:53Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。