論文の概要: Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2006.06721v4
- Date: Tue, 2 Nov 2021 11:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:14:11.347268
- Title: Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural
Networks
- Title(参考訳): backdoor smoothing:ディープニューラルネットワークにおけるバックドア攻撃の非神秘化
- Authors: Kathrin Grosse, Taesung Lee, Battista Biggio, Youngja Park, Michael
Backes, Ian Molloy
- Abstract要約: バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。
実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
- 参考スコア(独自算出の注目度): 25.23881974235643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks mislead machine-learning models to output an
attacker-specified class when presented a specific trigger at test time. These
attacks require poisoning the training data to compromise the learning
algorithm, e.g., by injecting poisoning samples containing the trigger into the
training set, along with the desired class label. Despite the increasing number
of studies on backdoor attacks and defenses, the underlying factors affecting
the success of backdoor attacks, along with their impact on the learning
algorithm, are not yet well understood. In this work, we aim to shed light on
this issue by unveiling that backdoor attacks induce a smoother decision
function around the triggered samples -- a phenomenon which we refer to as
\textit{backdoor smoothing}. To quantify backdoor smoothing, we define a
measure that evaluates the uncertainty associated to the predictions of a
classifier around the input samples.
Our experiments show that smoothness increases when the trigger is added to
the input samples, and that this phenomenon is more pronounced for more
successful attacks.
We also provide preliminary evidence that backdoor triggers are not the only
smoothing-inducing patterns, but that also other artificial patterns can be
detected by our approach, paving the way towards understanding the limitations
of current defenses and designing novel ones.
- Abstract(参考訳): Backdoor攻撃は、テスト時に特定のトリガを提示した場合に、機械学習モデルにミスリードして攻撃者が特定クラスを出力する。
これらの攻撃は、トレーニングセットにトリガーを含む中毒サンプルを注入することで、学習アルゴリズムを損なうためにトレーニングデータを汚染する必要がある。
バックドア攻撃や防御に関する研究が増えているにもかかわらず、バックドア攻撃の成功と学習アルゴリズムへの影響に影響を及ぼす基本的な要因はまだよく分かっていない。
本研究では,バックドア攻撃が引き起こされたサンプルの周りのスムーズな決定関数を誘導することを明らかにすることで,この問題に光を当てることを目的としている。
バックドア平滑化を定量化するために,入力サンプル周辺の分類器の予測に係わる不確実性を評価する尺度を定義する。
実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
また,バックドアトリガーがスムーズな誘導パターンであるだけでなく,我々のアプローチによって他の人工的パターンも検出できることを示す予備的証拠も提供し,現行の防御の限界を理解するための道を開いた。
関連論文リスト
- Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning
System [4.9233610638625604]
マシンアンラーニングに基づく新しいブラックボックスバックドア攻撃を提案する。
攻撃者はまず、毒や緩和データを含む慎重に設計されたサンプルでトレーニングセットを強化し、良心のモデルを訓練する。
そして、攻撃者は、モデルの関連するデータの影響を取り除くために、未学習のサンプルに対するリクエストをポストし、徐々に隠れたバックドアを活性化する。
論文 参考訳(メタデータ) (2023-09-12T02:42:39Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection
and Mitigation in Deep Neural Networks [22.900501880865658]
バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす
汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。
当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
論文 参考訳(メタデータ) (2022-03-17T12:37:21Z) - Backdoor Learning Curves: Explaining Backdoor Poisoning Beyond Influence
Functions [26.143147923356626]
インクリメンタルラーニングとインフルエンス関数のレンズによるバックドアラーニングのプロセスについて検討した。
バックドア攻撃の成功は、(i)学習アルゴリズムの複雑さと(ii)トレーニングセットに注入されたバックドアサンプルの割合に本質的に依存していることが示される。
論文 参考訳(メタデータ) (2021-06-14T08:00:48Z) - Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective [10.03897682559064]
本稿では,既存のバックドアトリガを周波数の観点から再検討し,包括的解析を行う。
現在のバックドア攻撃の多くは、異なるデータセットと解像度にまたがって持続する重い高周波アーティファクトを示す。
高周波アーティファクトを使わずにスムーズなバックドアトリガーを作成し,その検出性を検討する実用的な方法を提案する。
論文 参考訳(メタデータ) (2021-04-07T22:05:28Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。