論文の概要: Active Learning Under Malicious Mislabeling and Poisoning Attacks
- arxiv url: http://arxiv.org/abs/2101.00157v2
- Date: Wed, 24 Mar 2021 01:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:13:55.377255
- Title: Active Learning Under Malicious Mislabeling and Poisoning Attacks
- Title(参考訳): 悪意のある誤記と毒殺攻撃によるアクティブラーニング
- Authors: Jing Lin, Ryan Luley, and Kaiqi Xiong
- Abstract要約: ディープニューラルネットワークは通常、トレーニングのために大きなラベル付きデータセットを必要とする。
これらのデータのほとんどはラベルなしであり、データ中毒攻撃に弱い。
本稿では,ラベル付きインスタンスの少ない効率的な能動的学習手法を提案する。
- 参考スコア(独自算出の注目度): 2.4660652494309936
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks usually require large labeled datasets for training to
achieve the start-of-the-art performance in many tasks, such as image
classification and natural language processing. Though a lot of data is created
each day by active Internet users through various distributed systems across
the world, most of these data are unlabeled and are vulnerable to data
poisoning attacks. In this paper, we develop an efficient active learning
method that requires fewer labeled instances and incorporates the technique of
adversarial retraining in which additional labeled artificial data are
generated without increasing the labeling budget. The generated adversarial
examples also provide a way to measure the vulnerability of the model. To check
the performance of the proposed method under an adversarial setting, i.e.,
malicious mislabeling and data poisoning attacks, we perform an extensive
evaluation on the reduced CIFAR-10 dataset, which contains only two classes:
'airplane' and 'frog' by using the private cloud on campus. Our experimental
results demonstrate that the proposed active learning method is efficient for
defending against malicious mislabeling and data poisoning attacks.
Specifically, whereas the baseline active learning method based on the random
sampling strategy performs poorly (about 50%) under a malicious mislabeling
attack, the proposed active learning method can achieve the desired accuracy of
89% using only one-third of the dataset on average.
- Abstract(参考訳): ディープニューラルネットワークは通常、画像分類や自然言語処理など、多くのタスクで最先端のパフォーマンスを達成するために、トレーニングのために大きなラベル付きデータセットを必要とする。
世界中のさまざまな分散システムを通じて、アクティブなインターネットユーザによって毎日多くのデータが生成されるが、これらのデータはラベルがなく、データ中毒攻撃に弱い。
本稿では,ラベル付きインスタンスの少ない効率的なアクティブラーニング手法を開発し,ラベル付け予算を増加させることなく,ラベル付き人工データを付加的に生成する逆リトレーニング手法を取り入れる。
生成された逆の例は、モデルの脆弱性を測定する手段も提供します。
提案手法の性能を確認するため,大学構内のプライベートクラウドを用いて,cifar-10データセットの2つのクラス,すなわち「飛行機」と「フラッグ」のみを含む。
実験結果から,提案手法は悪意ある誤記やデータ中毒に対する防御に有効であることが示唆された。
具体的には、ランダムサンプリング戦略に基づくベースラインアクティブラーニング手法は、悪意のあるラベル付け攻撃下では性能が悪く(約50%)、提案手法は平均してデータセットの3分の1しか使用せず、望ましくは89%の精度を達成できる。
関連論文リスト
- Machine Unlearning Fails to Remove Data Poisoning Attacks [20.495836283745618]
データ削除要求に従うことに加えて、未学習の手法の潜在的な応用として、有毒なデータに対するトレーニングの効果を除去することが挙げられる。
実験により,既存のアンラーニング手法は,多くの評価設定において有効であることが実証されているが,データ中毒の影響を除去することはできなかった。
論文 参考訳(メタデータ) (2024-06-25T02:05:29Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Gradient-based Data Subversion Attack Against Binary Classifiers [9.414651358362391]
本研究では,攻撃者がラベルのラベルに毒を盛り,システムの機能を損なうようなラベル汚染攻撃に焦点を当てる。
我々は、予測ラベルに対する微分可能凸損失関数の勾配をウォームスタートとして利用し、汚染するデータインスタンスの集合を見つけるための異なる戦略を定式化する。
本実験は,提案手法がベースラインより優れ,計算効率が高いことを示す。
論文 参考訳(メタデータ) (2021-05-31T09:04:32Z) - Poisoning the Unlabeled Dataset of Semi-Supervised Learning [26.093821359987224]
ラベルなしのデータセットを変更する中毒攻撃:我々は、脆弱性の新しいクラスを研究します。
有用にするために、ラベルなしデータセットはラベル付きデータセットよりも厳密にレビューが少なくなる。
我々の攻撃はデータセットや半教師付き学習手法で非常に効果的です。
論文 参考訳(メタデータ) (2021-05-04T16:55:20Z) - Adversarial Vulnerability of Active Transfer Learning [0.0]
小さなデータセット上で教師付き機械学習モデルをトレーニングするための2つの広く使用されているテクニックは、Active LearningとTransfer Learningである。
これらの手法の組み合わせは、特に新しい種類のデータ中毒攻撃の影響を受けやすいことを示す。
このような有毒データセットでトレーニングされたモデルは、かなり性能が低下し、86%から34%のテスト精度が低下した。
論文 参考訳(メタデータ) (2021-01-26T14:07:09Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。