論文の概要: Mithridates: Auditing and Boosting Backdoor Resistance of Machine
Learning Pipelines
- arxiv url: http://arxiv.org/abs/2302.04977v3
- Date: Tue, 19 Dec 2023 13:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 03:05:06.732807
- Title: Mithridates: Auditing and Boosting Backdoor Resistance of Machine
Learning Pipelines
- Title(参考訳): Mithridates: マシンラーニングパイプラインのバックドア抵抗の監査と向上
- Authors: Eugene Bagdasaryan and Vitaly Shmatikov
- Abstract要約: 潜在的に信頼できないソースのデータに基づいてトレーニングされた機械学習モデルは、毒に弱い。
本稿では,最小限のトレーニング入力数に基づく,汎用的かつ攻撃非依存な抵抗測定法を提案する。
以上の結果から,Mithridatesは複数種類のバックドア攻撃に対する耐性を3~5倍増し,精度にわずかに影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 16.712814763678495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) models trained on data from potentially untrusted
sources are vulnerable to poisoning. A small, maliciously crafted subset of the
training inputs can cause the model to learn a "backdoor" task (e.g.,
misclassify inputs with a certain feature) in addition to its main task. Recent
research proposed many hypothetical backdoor attacks whose efficacy heavily
depends on the configuration and training hyperparameters of the target model.
Given the variety of potential backdoor attacks, ML engineers who are not
security experts have no way to measure how vulnerable their current training
pipelines are, nor do they have a practical way to compare training
configurations so as to pick the more resistant ones. Deploying a defense
requires evaluating and choosing from among dozens of research papers and
re-engineering the training pipeline.
In this paper, we aim to provide ML engineers with pragmatic tools to audit
the backdoor resistance of their training pipelines and to compare different
training configurations, to help choose one that best balances accuracy and
security.
First, we propose a universal, attack-agnostic resistance metric based on the
minimum number of training inputs that must be compromised before the model
learns any backdoor.
Second, we design, implement, and evaluate Mithridates a multi-stage approach
that integrates backdoor resistance into the training-configuration search. ML
developers already rely on hyperparameter search to find configurations that
maximize the model's accuracy. Mithridates extends this standard tool to
balance accuracy and resistance without disruptive changes to the training
pipeline. We show that hyperparameters found by Mithridates increase resistance
to multiple types of backdoor attacks by 3-5x with only a slight impact on
accuracy. We also discuss extensions to AutoML and federated learning.
- Abstract(参考訳): 潜在的信頼できないソースのデータに基づいてトレーニングされた機械学習(ML)モデルは、毒に弱い。
トレーニング入力の小さな悪意ある部分集合は、モデルがメインタスクに加えて"バックドア"タスク(例えば、特定の機能で入力を誤分類する)を学ぶ原因となる可能性がある。
最近の研究では、ターゲットモデルの配置とトレーニングのハイパーパラメータに大きく依存する仮説上のバックドア攻撃が多数提案されている。
バックドア攻撃の可能性を考慮すれば、セキュリティの専門家でないMLエンジニアは、現在のトレーニングパイプラインがどれほど脆弱であるかを測定する方法も、より耐性のあるものを選択するためのトレーニング構成を比較する実用的な方法もない。
防衛の展開には、数十の研究論文の評価と選択と、トレーニングパイプラインの再設計が必要である。
本稿では,機械学習エンジニアに,トレーニングパイプラインのバックドア抵抗を監査する実用的なツールを提供し,異なるトレーニング構成を比較し,正確性とセキュリティを最良にバランスさせるツールの選択を支援することを目的とする。
まず,モデルがバックドアを学習する前に破らなければならない最小のトレーニング入力数に基づく,普遍的で攻撃非依存な抵抗指標を提案する。
第2に,トレーニング構成検索にバックドア耐性を統合する多段階アプローチを設計,実装,評価する。
ML開発者はモデルの精度を最大化する設定を見つけるためにすでにハイパーパラメータ検索に依存している。
mithridatesはこの標準ツールを拡張して、トレーニングパイプラインの変更を中断することなく、正確性と耐性のバランスをとる。
Mithridatesが検出したハイパーパラメータは,複数種類のバックドア攻撃に対する耐性を3~5倍増し,精度にわずかに影響を及ぼす。
また、AutoMLとフェデレーション学習の拡張についても論じる。
関連論文リスト
- Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。
我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。
従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。
本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文 参考訳(メタデータ) (2024-08-19T10:39:45Z) - DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。
トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。
提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文 参考訳(メタデータ) (2024-06-18T23:04:38Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - CRFL: Certifiably Robust Federated Learning against Backdoor Attacks [59.61565692464579]
本稿では,第1の汎用フレームワークであるCertifiably Robust Federated Learning (CRFL) を用いて,バックドアに対する堅牢なFLモデルをトレーニングする。
提案手法は, モデルパラメータのクリッピングと平滑化を利用して大域的モデル平滑化を制御する。
論文 参考訳(メタデータ) (2021-06-15T16:50:54Z) - Blind Backdoors in Deep Learning Models [22.844973592524966]
本稿では,機械学習モデルにバックドアを注入する新しい手法について検討する。
従来の文献よりも厳格に強力なバックドアの新たなクラスを実証するために使用しています。
攻撃者はトレーニングデータを変更したり、コードの実行を観察したり、結果のモデルにアクセスしたりすることができません。
論文 参考訳(メタデータ) (2020-05-08T02:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。