論文の概要: Oblivious Defense in ML Models: Backdoor Removal without Detection
- arxiv url: http://arxiv.org/abs/2411.03279v1
- Date: Tue, 05 Nov 2024 17:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:07.925551
- Title: Oblivious Defense in ML Models: Backdoor Removal without Detection
- Title(参考訳): MLモデルにおける未知の防御:検出なしのバックドア除去
- Authors: Shafi Goldwasser, Jonathan Shafer, Neekon Vafa, Vinod Vaikuntanathan,
- Abstract要約: 最近の結果は、敵が検出不能なバックドアを機械学習モデルに植え付けることができることを示している。
本稿では,MLモデルにおけるバックドアの防御戦略について述べる。
- 参考スコア(独自算出の注目度): 10.129743924805036
- License:
- Abstract: As society grows more reliant on machine learning, ensuring the security of machine learning systems against sophisticated attacks becomes a pressing concern. A recent result of Goldwasser, Kim, Vaikuntanathan, and Zamir (2022) shows that an adversary can plant undetectable backdoors in machine learning models, allowing the adversary to covertly control the model's behavior. Backdoors can be planted in such a way that the backdoored machine learning model is computationally indistinguishable from an honest model without backdoors. In this paper, we present strategies for defending against backdoors in ML models, even if they are undetectable. The key observation is that it is sometimes possible to provably mitigate or even remove backdoors without needing to detect them, using techniques inspired by the notion of random self-reducibility. This depends on properties of the ground-truth labels (chosen by nature), and not of the proposed ML model (which may be chosen by an attacker). We give formal definitions for secure backdoor mitigation, and proceed to show two types of results. First, we show a "global mitigation" technique, which removes all backdoors from a machine learning model under the assumption that the ground-truth labels are close to a Fourier-heavy function. Second, we consider distributions where the ground-truth labels are close to a linear or polynomial function in $\mathbb{R}^n$. Here, we show "local mitigation" techniques, which remove backdoors with high probability for every inputs of interest, and are computationally cheaper than global mitigation. All of our constructions are black-box, so our techniques work without needing access to the model's representation (i.e., its code or parameters). Along the way we prove a simple result for robust mean estimation.
- Abstract(参考訳): 社会が機械学習に頼りやすくなればなるほど、高度な攻撃に対する機械学習システムのセキュリティの確保が懸念される。
Goldwasser, Kim, Vaikuntanathan, Zamir (2022) の最近の結果は、敵が検出不能なバックドアを機械学習モデルに植え付けることができ、敵がモデルの動きを隠蔽的に制御できることを示している。
バックドアは、バックドアのない正直なモデルと計算的に区別できないように、バックドアを植え付けることができる。
本稿では,MLモデルにおけるバックドアに対する防御戦略について述べる。
鍵となる観察は、ランダムな自己認識の概念にインスパイアされた技術を用いて、バックドアを検出せずに確実に緩和したり、取り外したりすることが可能であるということである。
これは(本質的には)地平線ラベルの特性に依存し、(攻撃者によって選択されるかもしれない)提案されたMLモデルには依存しない。
我々は,セキュアなバックドア緩和のための公式な定義を与え,2種類の結果を示す。
まず,基本トラスラベルがフーリエ重み関数に近いことを前提として,機械学習モデルからすべてのバックドアを除去する「グローバル緩和」手法を示す。
第二に、基底トラスラベルが$\mathbb{R}^n$の線型あるいは多項式関数に近い分布を考える。
ここでは、関心のすべての入力に対して高い確率でバックドアを除去し、グローバルな緩和よりも計算的に安価である「局所緩和」手法を示す。
私たちの構造はすべてブラックボックスなので、モデルの表現(つまりコードやパラメータ)にアクセスする必要なしに、我々の技術は機能します。
その過程で、ロバスト平均推定のための単純な結果を証明する。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks [15.917794562400449]
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-01T20:47:58Z) - Planting Undetectable Backdoors in Machine Learning Models [14.592078676445201]
悪意ある学習者が検出不能なバックドアを分類器に組み込む方法を示す。
適切な"バックドアキー"がなければ、そのメカニズムは隠され、計算に拘束されたオブザーバによって検出できない。
検出不能なバックドアを植え付けるための2つのフレームワークを示す。
論文 参考訳(メタデータ) (2022-04-14T13:55:21Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Attack of the Tails: Yes, You Really Can Backdoor Federated Learning [21.06925263586183]
フェデレーテッド・ラーニング(FL)は、訓練中にバックドアの形で敵の攻撃を仕掛ける。
エッジケースのバックドアは、トレーニングの一部としてはありそうにない一見簡単な入力、すなわち入力分布の尾に生息するテストデータに対して、モデルに誤った分類を強制する。
これらのエッジケースのバックドアが不便な失敗を招き、フェアネスに深刻な反感を与える可能性があることを示す。
論文 参考訳(メタデータ) (2020-07-09T21:50:54Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。