論文の概要: Mithridates: Boosting Natural Resistance to Backdoor Learning
- arxiv url: http://arxiv.org/abs/2302.04977v2
- Date: Tue, 23 May 2023 20:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 02:03:14.435378
- Title: Mithridates: Boosting Natural Resistance to Backdoor Learning
- Title(参考訳): mithridates: バックドア学習に対する自然抵抗を高める
- Authors: Eugene Bagdasaryan and Vitaly Shmatikov
- Abstract要約: モデルの入力の小さな、悪意に富んだサブセットは、モデルに"バックドアタスク"を学習させる可能性がある。
パイプラインの変更なしに、複数の種類のバックドアアタックに対するモデルの正確性と抵抗のバランスをとる方法を示す。
- 参考スコア(独自算出の注目度): 22.844973592524966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) models trained on data from potentially untrusted
sources are vulnerable to poisoning. A small, maliciously crafted subset of the
training inputs can cause the model to learn a "backdoor" task (e.g.,
misclassify inputs with a certain feature) in addition to its main task. While
backdoor attacks remain largely a hypothetical threat, state-of-the-art
defenses require massive changes to the existing ML pipelines and are too
complex for practical deployment.
In this paper, we take a pragmatic view and investigate natural resistance of
ML pipelines to backdoor attacks, i.e., resistance that can be achieved without
changes to how models are trained. We design, implement, and evaluate
Mithridates, a new method that helps practitioners answer two actionable
questions: (1) how well does my model resist backdoor poisoning attacks?, and
(2) how can I increase its resistance without changing the training pipeline?
Mithridates leverages hyperparameter search $\unicode{x2013}$ a tool that ML
developers already extensively use $\unicode{x2013}$ to balance the model's
accuracy and resistance to backdoor learning, without disruptive changes to the
pipeline.
We show that hyperparameters found by Mithridates increase resistance to
multiple types of backdoor attacks by 3-5x with only a slight impact on model
accuracy. We also discuss extensions to AutoML and federated learning.
- Abstract(参考訳): 潜在的信頼できないソースのデータに基づいてトレーニングされた機械学習(ML)モデルは、毒に弱い。
トレーニング入力の小さな悪意ある部分集合は、モデルがメインタスクに加えて"バックドア"タスク(例えば、特定の機能で入力を誤分類する)を学ぶ原因となる可能性がある。
バックドア攻撃は大半が仮説上の脅威だが、最先端の防御には既存のMLパイプラインに大きな変更が必要であり、現実的なデプロイメントには複雑すぎる。
本稿では,MLパイプラインのバックドア攻撃に対する自然抵抗,すなわちモデルの訓練方法を変えることなく達成できる抵抗について,実用的視点で検討する。
私たちはmithridatesを設計し、実装し、評価します。これは実践者が2つの実行可能な質問に答えるのに役立つ新しい方法です。
トレーニングパイプラインを変更することなく,その耐性を高めるにはどうすればよいのか?
mithridatesはハイパーパラメータ検索$\unicode{x2013}$を活用する。ml開発者がすでに広く$\unicode{x2013}$を使用して、パイプラインの変更を中断することなく、モデルの正確性とバックドア学習に対する抵抗のバランスをとる。
Mithridatesが検出したハイパーパラメータは,モデル精度にわずかに影響を及ぼすことなく,複数種類のバックドア攻撃に対する抵抗を3~5倍増加させることを示した。
また、AutoMLとフェデレーション学習の拡張についても論じる。
関連論文リスト
- Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。
我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。
トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。
提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文 参考訳(メタデータ) (2024-06-18T23:04:38Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。
バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威である。
この研究は、NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - CRFL: Certifiably Robust Federated Learning against Backdoor Attacks [59.61565692464579]
本稿では,第1の汎用フレームワークであるCertifiably Robust Federated Learning (CRFL) を用いて,バックドアに対する堅牢なFLモデルをトレーニングする。
提案手法は, モデルパラメータのクリッピングと平滑化を利用して大域的モデル平滑化を制御する。
論文 参考訳(メタデータ) (2021-06-15T16:50:54Z) - Blind Backdoors in Deep Learning Models [22.844973592524966]
本稿では,機械学習モデルにバックドアを注入する新しい手法について検討する。
従来の文献よりも厳格に強力なバックドアの新たなクラスを実証するために使用しています。
攻撃者はトレーニングデータを変更したり、コードの実行を観察したり、結果のモデルにアクセスしたりすることができません。
論文 参考訳(メタデータ) (2020-05-08T02:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。