論文の概要: Effective and Efficient Data Poisoning in Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2012.07381v1
- Date: Mon, 14 Dec 2020 10:05:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:18:23.991802
- Title: Effective and Efficient Data Poisoning in Semi-Supervised Learning
- Title(参考訳): 半教師付き学習における効率的かつ効率的なデータ中毒
- Authors: Adriano Franci, Maxime Cordy, Martin Gubri, Mike Papadakis, Yves Le
Traon
- Abstract要約: Semi-Supervised Learningは、限られたラベル付きデータから学習の利点を最大限に引き出すことを目的としています。
未知のラベルを推測するために既知のラベルに依存するため、SSLアルゴリズムはデータ品質に敏感である。
本稿では, 有効かつ効率的な新しいデータ中毒法を提案する。
- 参考スコア(独自算出の注目度): 18.48232314176616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-Supervised Learning (SSL) aims to maximize the benefits of learning from
a limited amount of labelled data together with a vast amount of unlabelled
data. Because they rely on the known labels to infer the unknown labels, SSL
algorithms are sensitive to data quality. This makes it important to study the
potential threats related to the labelled data, more specifically, label
poisoning. However, data poisoning of SSL remains largely understudied. To fill
this gap, we propose a novel data poisoning method which is both effective and
efficient. Our method exploits mathematical properties of SSL to approximate
the influence of labelled inputs onto unlabelled one, which allows the
identification of the inputs that, if poisoned, would produce the highest
number of incorrectly inferred labels. We evaluate our approach on three
classification problems under 12 different experimental settings each. Compared
to the state of the art, our influence-based attack produces an average
increase of error rate 3 times higher, while being faster by multiple orders of
magnitude. Moreover, our method can inform engineers of inputs that deserve
investigation (relabelling them) before training the learning model. We show
that relabelling one-third of the poisoned inputs (selected based on their
influence) reduces the poisoning effect by 50%.
- Abstract(参考訳): SSL(Semi-Supervised Learning)は、ラベル付きデータと大量の非ラベル付きデータから学習することのメリットを最大化することを目的としている。
未知のラベルを推測するために既知のラベルに依存するため、SSLアルゴリズムはデータ品質に敏感である。
これにより、ラベル付きデータに関連する潜在的な脅威、具体的にはラベル中毒を研究することが重要である。
しかし、SSLのデータ中毒はほとんど調査されていない。
このギャップを埋めるために,効率と効率の両立した新しいデータ中毒法を提案する。
提案手法はSSLの数学的特性を利用してラベル付き入力の影響を非ラベル付き入力に近似し,有毒な入力を識別することで,不正に推測されたラベルの最大数を生成できる。
我々は,12の異なる実験環境下での3つの分類問題に対するアプローチを評価した。
最先端技術と比較して、我々の影響に基づく攻撃はエラー率を平均して3倍に増加させ、同時に複数の桁の速度も向上させる。
さらに,本手法は,学習モデルの学習前に,調査に値する入力を技術者に通知することができる。
その結果, 汚染された入力の3分の1(影響に基づいて選択)は, 毒性効果を50%減少させることがわかった。
関連論文リスト
- Delta-Influence: Unlearning Poisons via Influence Functions [18.97730860349776]
有害なトレーニングデータから異常なモデル行動を追跡する新しいアプローチである$Delta$-Influenceを導入する。
$Delta$-Influenceは、有毒なトレーニングデータと妥協したテストポイントとのリンクを回避したデータ変換を適用します。
Delta$-Influenceはすべての設定で最高のアンラーニングを実現しています。
論文 参考訳(メタデータ) (2024-11-20T22:15:10Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Defending Against Repetitive-based Backdoor Attacks on Semi-supervised Learning through Lens of Rate-Distortion-Perception Trade-off [20.713624299599722]
半教師付き学習(SSL)は、わずかなラベル付きデータで顕著なパフォーマンスを達成した。
信頼できないデータの大規模なプールは、データ中毒に極めて脆弱であり、バックドア攻撃につながる可能性がある。
トリガーパターンとターゲットクラスの関係を阻害する新しい手法であるunlabeled Data Purification (UPure)を提案する。
論文 参考訳(メタデータ) (2024-07-14T12:42:11Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - INN: A Method Identifying Clean-annotated Samples via Consistency Effect
in Deep Neural Networks [1.1470070927586016]
ノイズのあるラベル付きトレーニングデータからクリーンなラベル付きデータを洗練するための新しい手法であるINNを導入する。
INN法は計算量が多いが、小型の戦略よりも安定で強力である。
論文 参考訳(メタデータ) (2021-06-29T09:06:21Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。