論文の概要: IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2305.16503v1
- Date: Thu, 25 May 2023 22:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:57:03.443469
- Title: IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks
- Title(参考訳): IMBERT:BERTをインストールベースのバックドア攻撃に免疫させる
- Authors: Xuanli He, Jun Wang, Benjamin Rubinstein, Trevor Cohn
- Abstract要約: バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
- 参考スコア(独自算出の注目度): 45.81957796169348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks are an insidious security threat against machine learning
models. Adversaries can manipulate the predictions of compromised models by
inserting triggers into the training phase. Various backdoor attacks have been
devised which can achieve nearly perfect attack success without affecting model
predictions for clean inputs. Means of mitigating such vulnerabilities are
underdeveloped, especially in natural language processing. To fill this gap, we
introduce IMBERT, which uses either gradients or self-attention scores derived
from victim models to self-defend against backdoor attacks at inference time.
Our empirical studies demonstrate that IMBERT can effectively identify up to
98.5% of inserted triggers. Thus, it significantly reduces the attack success
rate while attaining competitive accuracy on the clean dataset across
widespread insertion-based attacks compared to two baselines. Finally, we show
that our approach is model-agnostic, and can be easily ported to several
pre-trained transformer models.
- Abstract(参考訳): バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
管理者はトレーニングフェーズにトリガーを挿入することで、妥協したモデルの予測を操作することができる。
クリーン入力のモデル予測に影響を与えることなく、ほぼ完璧な攻撃成功を達成できる様々なバックドア攻撃が考案されている。
このような脆弱性を緩和する手段は、特に自然言語処理において未開発である。
このギャップを埋めるために、IMBERTを導入する。これは、被害者モデルから得られた勾配または自己注意スコアを用いて、推論時にバックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
これにより、広範囲にわたる挿入ベース攻撃において、2つのベースラインと比較してクリーンデータセットの競合精度を保ちながら、攻撃成功率を大幅に低減することができる。
最後に,本手法はモデル非依存であり,事前学習したトランスフォーマーモデルへの移植が容易であることを示す。
関連論文リスト
- DMGNN: Detecting and Mitigating Backdoor Attacks in Graph Neural Networks [30.766013737094532]
我々は,DMGNNを,アウト・オブ・ディストリビューション(OOD)およびイン・ディストリビューション(ID)グラフバックドア攻撃に対して提案する。
DMGNNは、偽説明に基づいてラベル遷移を予測することによって、隠されたIDとOODトリガを容易に識別できる。
DMGNNは最新技術(SOTA)防衛法をはるかに上回り、モデル性能のほとんど無視できる劣化を伴って攻撃成功率を5%に低下させる。
論文 参考訳(メタデータ) (2024-10-18T01:08:03Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Adversarial Attacks and Defenses in Multivariate Time-Series Forecasting for Smart and Connected Infrastructures [0.9217021281095907]
時系列予測における敵攻撃の影響について検討する。
トレーニングプロセスへの入力を有害にするために、未ターゲットのホワイトボックスアタックを採用し、効果的にモデルを誤解させる。
これらの攻撃の有効性を実証し、敵の訓練とモデル硬化による堅牢なモデルを構築した。
論文 参考訳(メタデータ) (2024-08-27T08:44:31Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Hijacking Attacks against Neural Networks by Analyzing Training Data [21.277867143827812]
CleanSheetは、新しいモデルハイジャック攻撃で、モデルをトレーニングする相手を必要とせずに、バックドア攻撃のハイパフォーマンスを得る。
CleanSheetはトレーニングデータから発生したタンパーの脆弱性を利用する。
CIFAR-100では平均的な攻撃成功率(ASR)が97.5%、GTSRBでは92.4%である。
論文 参考訳(メタデータ) (2024-01-18T05:48:56Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。