Fugu-MT 論文翻訳(概要): Mithridates: Boosting Natural Resistance to Backdoor Learning

論文の概要: Mithridates: Boosting Natural Resistance to Backdoor Learning

arxiv url: http://arxiv.org/abs/2302.04977v2
Date: Tue, 23 May 2023 20:44:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 02:03:14.435378
Title: Mithridates: Boosting Natural Resistance to Backdoor Learning
Title（参考訳）: mithridates: バックドア学習に対する自然抵抗を高める
Authors: Eugene Bagdasaryan and Vitaly Shmatikov
Abstract要約: モデルの入力の小さな、悪意に富んだサブセットは、モデルに"バックドアタスク"を学習させる可能性がある。パイプラインの変更なしに、複数の種類のバックドアアタックに対するモデルの正確性と抵抗のバランスをとる方法を示す。
参考スコア（独自算出の注目度）: 22.844973592524966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning (ML) models trained on data from potentially untrusted sources are vulnerable to poisoning. A small, maliciously crafted subset of the training inputs can cause the model to learn a "backdoor" task (e.g., misclassify inputs with a certain feature) in addition to its main task. While backdoor attacks remain largely a hypothetical threat, state-of-the-art defenses require massive changes to the existing ML pipelines and are too complex for practical deployment. In this paper, we take a pragmatic view and investigate natural resistance of ML pipelines to backdoor attacks, i.e., resistance that can be achieved without changes to how models are trained. We design, implement, and evaluate Mithridates, a new method that helps practitioners answer two actionable questions: (1) how well does my model resist backdoor poisoning attacks?, and (2) how can I increase its resistance without changing the training pipeline? Mithridates leverages hyperparameter search $\unicode{x2013}$ a tool that ML developers already extensively use $\unicode{x2013}$ to balance the model's accuracy and resistance to backdoor learning, without disruptive changes to the pipeline. We show that hyperparameters found by Mithridates increase resistance to multiple types of backdoor attacks by 3-5x with only a slight impact on model accuracy. We also discuss extensions to AutoML and federated learning.
Abstract（参考訳）: 潜在的信頼できないソースのデータに基づいてトレーニングされた機械学習(ML)モデルは、毒に弱い。トレーニング入力の小さな悪意ある部分集合は、モデルがメインタスクに加えて"バックドア"タスク(例えば、特定の機能で入力を誤分類する)を学ぶ原因となる可能性がある。バックドア攻撃は大半が仮説上の脅威だが、最先端の防御には既存のMLパイプラインに大きな変更が必要であり、現実的なデプロイメントには複雑すぎる。本稿では,MLパイプラインのバックドア攻撃に対する自然抵抗,すなわちモデルの訓練方法を変えることなく達成できる抵抗について,実用的視点で検討する。私たちはmithridatesを設計し、実装し、評価します。これは実践者が2つの実行可能な質問に答えるのに役立つ新しい方法です。トレーニングパイプラインを変更することなく,その耐性を高めるにはどうすればよいのか? mithridatesはハイパーパラメータ検索$\unicode{x2013}$を活用する。ml開発者がすでに広く$\unicode{x2013}$を使用して、パイプラインの変更を中断することなく、モデルの正確性とバックドア学習に対する抵抗のバランスをとる。 Mithridatesが検出したハイパーパラメータは,モデル精度にわずかに影響を及ぼすことなく,複数種類のバックドア攻撃に対する抵抗を3～5倍増加させることを示した。また、AutoMLとフェデレーション学習の拡張についても論じる。

関連論文リスト

Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文参考訳（メタデータ） (2024-12-02T10:54:02Z)
Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文参考訳（メタデータ） (2024-10-18T12:39:32Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文参考訳（メタデータ） (2024-08-19T10:39:45Z)
DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文参考訳（メタデータ） (2024-06-18T23:04:38Z)
TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文参考訳（メタデータ） (2024-05-27T03:10:57Z)
Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。バックドア攻撃は訓練中にモデルに悪意ある行動を埋め込む我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文参考訳（メタデータ） (2024-03-24T18:33:15Z)
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威である。この研究は、NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
論文参考訳（メタデータ） (2023-09-12T08:48:38Z)
Avoid Adversarial Adaption in Federated Learning by Multi-Metric Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。 FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。 MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文参考訳（メタデータ） (2023-06-06T11:44:42Z)
On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文参考訳（メタデータ） (2022-02-22T02:24:46Z)
CRFL: Certifiably Robust Federated Learning against Backdoor Attacks [59.61565692464579]
本稿では,第1の汎用フレームワークであるCertifiably Robust Federated Learning (CRFL) を用いて,バックドアに対する堅牢なFLモデルをトレーニングする。提案手法は, モデルパラメータのクリッピングと平滑化を利用して大域的モデル平滑化を制御する。
論文参考訳（メタデータ） (2021-06-15T16:50:54Z)
Blind Backdoors in Deep Learning Models [22.844973592524966]
本稿では,機械学習モデルにバックドアを注入する新しい手法について検討する。従来の文献よりも厳格に強力なバックドアの新たなクラスを実証するために使用しています。攻撃者はトレーニングデータを変更したり、コードの実行を観察したり、結果のモデルにアクセスしたりすることができません。
論文参考訳（メタデータ） (2020-05-08T02:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。