論文の概要: Poisoning the Unlabeled Dataset of Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2105.01622v1
- Date: Tue, 4 May 2021 16:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 13:02:03.547204
- Title: Poisoning the Unlabeled Dataset of Semi-Supervised Learning
- Title(参考訳): 半監督学習のラベルなしデータセットの収集
- Authors: Nicholas Carlini
- Abstract要約: ラベルなしのデータセットを変更する中毒攻撃:我々は、脆弱性の新しいクラスを研究します。
有用にするために、ラベルなしデータセットはラベル付きデータセットよりも厳密にレビューが少なくなる。
我々の攻撃はデータセットや半教師付き学習手法で非常に効果的です。
- 参考スコア(独自算出の注目度): 26.093821359987224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised machine learning models learn from a (small) set of labeled
training examples, and a (large) set of unlabeled training examples.
State-of-the-art models can reach within a few percentage points of
fully-supervised training, while requiring 100x less labeled data.
We study a new class of vulnerabilities: poisoning attacks that modify the
unlabeled dataset. In order to be useful, unlabeled datasets are given strictly
less review than labeled datasets, and adversaries can therefore poison them
easily. By inserting maliciously-crafted unlabeled examples totaling just 0.1%
of the dataset size, we can manipulate a model trained on this poisoned dataset
to misclassify arbitrary examples at test time (as any desired label). Our
attacks are highly effective across datasets and semi-supervised learning
methods.
We find that more accurate methods (thus more likely to be used) are
significantly more vulnerable to poisoning attacks, and as such better training
methods are unlikely to prevent this attack. To counter this we explore the
space of defenses, and propose two methods that mitigate our attack.
- Abstract(参考訳): 半教師付き機械学習モデルは、ラベル付きトレーニング例の(小さな)セットとラベル付きトレーニング例の(大きな)セットから学習する。
最先端のモデルは、完全な教師付きトレーニングで数ポイント以内に到達できるが、ラベル付きデータの100倍は必要だ。
我々は、ラベルなしデータセットを変更する中毒攻撃という、新しいタイプの脆弱性を研究している。
有効にするために、ラベル付きデータセットはラベル付きデータセットよりも厳密にレビューが少なくなるため、敵は簡単にそれらを汚染することができる。
この有毒なデータセットでトレーニングされたモデルを操作すれば、テスト時に(望まれるラベルとして)任意のサンプルを誤って分類することができます。
我々の攻撃はデータセットや半教師付き学習手法で非常に効果的です。
より正確な方法(使用される可能性が高くなる)は、毒性攻撃に対して著しく脆弱であり、このようなより良い訓練方法がこの攻撃を予防する可能性は低い。
これに対抗するために防衛の空間を探索し、攻撃を緩和する2つの方法を提案する。
関連論文リスト
- Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks [11.390175856652856]
クリーンラベル攻撃は、毒性のあるデータのラベルを変更することなく攻撃を行うことができる、よりステルスなバックドア攻撃である。
本研究は,攻撃成功率を高めるために,標的クラス内の少数の訓練サンプルを選択的に毒殺する方法について検討した。
私たちの脅威モデルは、サードパーティのデータセットで機械学習モデルをトレーニングする上で深刻な脅威となる。
論文 参考訳(メタデータ) (2024-07-15T15:38:21Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Rethinking Backdoor Data Poisoning Attacks in the Context of
Semi-Supervised Learning [5.417264344115724]
半教師付き学習法は、従来の教師付き学習に必要なラベル付きトレーニングサンプルのごく一部で、高精度な機械学習モデルを訓練することができる。
このような方法は、通常、ラベルのないトレーニングサンプルの綿密なレビューを伴わないため、データ中毒攻撃の標的を誘惑する。
本研究は, 汚染された試料の分布に影響を与える簡易な中毒攻撃が, 極めて効果的であることを示す。
論文 参考訳(メタデータ) (2022-12-05T20:21:31Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Poisoning and Backdooring Contrastive Learning [26.093821359987224]
CLIPのような対照的な学習方法は、ノイズの多いデータセットと未処理のデータセットでトレーニングする。
この慣行がバックドアや毒殺を重大な脅威にしていることを示す。
論文 参考訳(メタデータ) (2021-06-17T17:20:45Z) - Adversarial Vulnerability of Active Transfer Learning [0.0]
小さなデータセット上で教師付き機械学習モデルをトレーニングするための2つの広く使用されているテクニックは、Active LearningとTransfer Learningである。
これらの手法の組み合わせは、特に新しい種類のデータ中毒攻撃の影響を受けやすいことを示す。
このような有毒データセットでトレーニングされたモデルは、かなり性能が低下し、86%から34%のテスト精度が低下した。
論文 参考訳(メタデータ) (2021-01-26T14:07:09Z) - Active Learning Under Malicious Mislabeling and Poisoning Attacks [2.4660652494309936]
ディープニューラルネットワークは通常、トレーニングのために大きなラベル付きデータセットを必要とする。
これらのデータのほとんどはラベルなしであり、データ中毒攻撃に弱い。
本稿では,ラベル付きインスタンスの少ない効率的な能動的学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-01T03:43:36Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Intrinsic Certified Robustness of Bagging against Data Poisoning Attacks [75.46678178805382]
emphdata中毒攻撃では、攻撃者は学習した機械学習モデルを破損させるためにいくつかのトレーニング例を変更し、削除し、または挿入する。
データ中毒攻撃に対するバッグングの本質的確固たる堅牢性を証明する。
本手法は, 任意の修正, 削除, 挿入を行う場合, MNIST 上で 911.1% の精度を達成している。
論文 参考訳(メタデータ) (2020-08-11T03:12:42Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。