論文の概要: SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics
- arxiv url: http://arxiv.org/abs/2104.11315v1
- Date: Thu, 22 Apr 2021 20:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:16:45.418289
- Title: SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics
- Title(参考訳): SPECTRE:ロバスト統計を用いたバックドア攻撃対策
- Authors: Jonathan Hayase, Weihao Kong, Raghav Somani, Sewoong Oh
- Abstract要約: 少量の中毒データは、攻撃者が特定した透かしによって、訓練されたモデルの行動を変える。
堅牢な共分散推定を用いて,破損したデータのスペクトルシグネチャを増幅する,新たな防御アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 44.487762480349765
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern machine learning increasingly requires training on a large collection
of data from multiple sources, not all of which can be trusted. A particularly
concerning scenario is when a small fraction of poisoned data changes the
behavior of the trained model when triggered by an attacker-specified
watermark. Such a compromised model will be deployed unnoticed as the model is
accurate otherwise. There have been promising attempts to use the intermediate
representations of such a model to separate corrupted examples from clean ones.
However, these defenses work only when a certain spectral signature of the
poisoned examples is large enough for detection. There is a wide range of
attacks that cannot be protected against by the existing defenses. We propose a
novel defense algorithm using robust covariance estimation to amplify the
spectral signature of corrupted data. This defense provides a clean model,
completely removing the backdoor, even in regimes where previous methods have
no hope of detecting the poisoned examples. Code and pre-trained models are
available at https://github.com/SewoongLab/spectre-defense .
- Abstract(参考訳): 現代の機械学習では、複数のソースから収集した大量のデータのトレーニングがますます必要になる。
特に関連するシナリオは、攻撃者が特定した透かしによって引き起こされた場合、少量の有毒データが訓練されたモデルの振る舞いを変更する場合である。
このような妥協されたモデルは、モデルが正しくない場合、気づかないままデプロイされる。
このようなモデルの中間表現を使って、破損した例をクリーンなものから分離しようとする有望な試みがあった。
しかし、これらの防御は、有毒な例の特定のスペクトルシグネチャが検出に十分な大きさである場合にのみ機能する。
既存の防御では防げない広範囲な攻撃がある。
本研究では,ロバスト共分散推定を用いた新しい防御アルゴリズムを提案し,破損データのスペクトルシグネチャを増幅する。
この防御はクリーンなモデルを提供し、以前の方法が有毒な例を検知する見込みのない体制でも、バックドアを完全に取り除きます。
コードと事前訓練されたモデルはhttps://github.com/sewoonglab/spectre-defense.comで入手できる。
関連論文リスト
- Backdoor Defense through Self-Supervised and Generative Learning [0.0]
このようなデータのトレーニングは、選択されたテストサンプルに悪意のある推論を引き起こすバックドアを注入する。
本稿では,自己教師付き表現空間におけるクラスごとの分布生成モデルに基づくアプローチを提案する。
どちらの場合も、クラスごとの生成モデルにより、有毒なデータを検出し、データセットをクリーン化することができます。
論文 参考訳(メタデータ) (2024-09-02T11:40:01Z) - Partial train and isolate, mitigate backdoor attack [6.583682264938882]
疑わしいサンプルを分離可能なモデルをトレーニングするために,モデルの一部を凍結する新しいモデルトレーニング方法(PT)を提案する。
そして、これに基づいてクリーンモデルが微調整され、バックドア攻撃に抵抗する。
論文 参考訳(メタデータ) (2024-05-26T08:54:43Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - A Data-Driven Defense against Edge-case Model Poisoning Attacks on Federated Learning [13.89043799280729]
本稿では,フェデレートラーニングシステムにおけるモデル中毒に対する効果的な防御法を提案する。
DataDefenseは、防衛データセットの各例を毒または清潔とマークする有毒データ検出モデルを学ぶ。
標準的な攻撃設定では攻撃成功率を少なくとも40%、いくつかの設定では80%以上削減することができる。
論文 参考訳(メタデータ) (2023-05-03T10:20:26Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。