論文の概要: SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics
- arxiv url: http://arxiv.org/abs/2104.11315v1
- Date: Thu, 22 Apr 2021 20:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:16:45.418289
- Title: SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics
- Title(参考訳): SPECTRE:ロバスト統計を用いたバックドア攻撃対策
- Authors: Jonathan Hayase, Weihao Kong, Raghav Somani, Sewoong Oh
- Abstract要約: 少量の中毒データは、攻撃者が特定した透かしによって、訓練されたモデルの行動を変える。
堅牢な共分散推定を用いて,破損したデータのスペクトルシグネチャを増幅する,新たな防御アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 44.487762480349765
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern machine learning increasingly requires training on a large collection
of data from multiple sources, not all of which can be trusted. A particularly
concerning scenario is when a small fraction of poisoned data changes the
behavior of the trained model when triggered by an attacker-specified
watermark. Such a compromised model will be deployed unnoticed as the model is
accurate otherwise. There have been promising attempts to use the intermediate
representations of such a model to separate corrupted examples from clean ones.
However, these defenses work only when a certain spectral signature of the
poisoned examples is large enough for detection. There is a wide range of
attacks that cannot be protected against by the existing defenses. We propose a
novel defense algorithm using robust covariance estimation to amplify the
spectral signature of corrupted data. This defense provides a clean model,
completely removing the backdoor, even in regimes where previous methods have
no hope of detecting the poisoned examples. Code and pre-trained models are
available at https://github.com/SewoongLab/spectre-defense .
- Abstract(参考訳): 現代の機械学習では、複数のソースから収集した大量のデータのトレーニングがますます必要になる。
特に関連するシナリオは、攻撃者が特定した透かしによって引き起こされた場合、少量の有毒データが訓練されたモデルの振る舞いを変更する場合である。
このような妥協されたモデルは、モデルが正しくない場合、気づかないままデプロイされる。
このようなモデルの中間表現を使って、破損した例をクリーンなものから分離しようとする有望な試みがあった。
しかし、これらの防御は、有毒な例の特定のスペクトルシグネチャが検出に十分な大きさである場合にのみ機能する。
既存の防御では防げない広範囲な攻撃がある。
本研究では,ロバスト共分散推定を用いた新しい防御アルゴリズムを提案し,破損データのスペクトルシグネチャを増幅する。
この防御はクリーンなモデルを提供し、以前の方法が有毒な例を検知する見込みのない体制でも、バックドアを完全に取り除きます。
コードと事前訓練されたモデルはhttps://github.com/sewoonglab/spectre-defense.comで入手できる。
関連論文リスト
- Diffence: Fencing Membership Privacy With Diffusion Models [16.447035745151428]
生成モデルを活用することによって,メンバシップ攻撃に対する新たな枠組みを導入する。
当社のアプローチは,モデルユーティリティを損なうことなく,メンバシップのプライバシを高める,堅牢なプラグインプレイ防御機構として機能する。
論文 参考訳(メタデータ) (2023-12-07T20:45:09Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - LearnDefend: Learning to Defend against Targeted Model-Poisoning Attacks
on Federated Learning [15.649086996679914]
近年の研究では、入力空間のごく一部を標的とするエッジケース攻撃は、既存の固定防御戦略で対処することがほぼ不可能であることが示された。
本稿では,このような攻撃に対する学習防御戦略を,小さな防衛データセットを用いて設計する。
提案されたフレームワークであるLearnDefendは、クライアント更新が悪意がある確率を推定する。
論文 参考訳(メタデータ) (2023-05-03T10:20:26Z) - Defending Against Patch-based Backdoor Attacks on Self-Supervised
Learning [27.622458035351784]
自己教師付き学習(SSL)は、バックドア攻撃に影響を及ぼすパッチベースのデータに対して脆弱であることが示されている。
本研究は,このような攻撃に対して自己指導型学習を守ることを目的としている。
論文 参考訳(メタデータ) (2023-04-04T02:54:49Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。