Fugu-MT 論文翻訳(概要): IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks

論文の概要: IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks

arxiv url: http://arxiv.org/abs/2305.16503v1
Date: Thu, 25 May 2023 22:08:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 17:57:03.443469
Title: IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks
Title（参考訳）: IMBERT:BERTをインストールベースのバックドア攻撃に免疫させる
Authors: Xuanli He, Jun Wang, Benjamin Rubinstein, Trevor Cohn
Abstract要約: バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。 IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
参考スコア（独自算出の注目度）: 45.81957796169348
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Backdoor attacks are an insidious security threat against machine learning models. Adversaries can manipulate the predictions of compromised models by inserting triggers into the training phase. Various backdoor attacks have been devised which can achieve nearly perfect attack success without affecting model predictions for clean inputs. Means of mitigating such vulnerabilities are underdeveloped, especially in natural language processing. To fill this gap, we introduce IMBERT, which uses either gradients or self-attention scores derived from victim models to self-defend against backdoor attacks at inference time. Our empirical studies demonstrate that IMBERT can effectively identify up to 98.5% of inserted triggers. Thus, it significantly reduces the attack success rate while attaining competitive accuracy on the clean dataset across widespread insertion-based attacks compared to two baselines. Finally, we show that our approach is model-agnostic, and can be easily ported to several pre-trained transformer models.
Abstract（参考訳）: バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。管理者はトレーニングフェーズにトリガーを挿入することで、妥協したモデルの予測を操作することができる。クリーン入力のモデル予測に影響を与えることなく、ほぼ完璧な攻撃成功を達成できる様々なバックドア攻撃が考案されている。このような脆弱性を緩和する手段は、特に自然言語処理において未開発である。このギャップを埋めるために、IMBERTを導入する。これは、被害者モデルから得られた勾配または自己注意スコアを用いて、推論時にバックドア攻撃に対する自己防衛を行う。我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。これにより、広範囲にわたる挿入ベース攻撃において、2つのベースラインと比較してクリーンデータセットの競合精度を保ちながら、攻撃成功率を大幅に低減することができる。最後に,本手法はモデル非依存であり,事前学習したトランスフォーマーモデルへの移植が容易であることを示す。

関連論文リスト

InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。 InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文参考訳（メタデータ） (2025-06-14T09:08:34Z)
Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。 CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文参考訳（メタデータ） (2025-02-26T16:25:15Z)
Injecting Bias into Text Classification Models using Backdoor Attacks [0.0]
バイアス注入という新たな目的のために,バックドア攻撃を活用することを提案する。トレーニングデータセットのサブセットが毒され、強い男性アクターと否定的な感情を関連付けるバックドアアタックを開発する。その結果,バックドアモデルの良性分類精度の低下は限定的であることがわかった。
論文参考訳（メタデータ） (2024-12-25T19:32:02Z)
DeTrigger: A Gradient-Centric Approach to Backdoor Attack Mitigation in Federated Learning [4.932796168357307]
Federated Learning(FL)は、ローカルデータのプライバシを保持しながら、分散デバイス間の協調的なモデルトレーニングを可能にする。しかし、FLの分散された性質は、特にバックドアアタックをモデル化するための脆弱性も開放する。 DeTriggerは、スケーラブルで効率的なバックドアロバストなフェデレーション学習フレームワークである。
論文参考訳（メタデータ） (2024-11-19T04:12:14Z)
DMGNN: Detecting and Mitigating Backdoor Attacks in Graph Neural Networks [30.766013737094532]
我々は,DMGNNを,アウト・オブ・ディストリビューション(OOD)およびイン・ディストリビューション(ID)グラフバックドア攻撃に対して提案する。 DMGNNは、偽説明に基づいてラベル遷移を予測することによって、隠されたIDとOODトリガを容易に識別できる。 DMGNNは最新技術(SOTA)防衛法をはるかに上回り、モデル性能のほとんど無視できる劣化を伴って攻撃成功率を5%に低下させる。
論文参考訳（メタデータ） (2024-10-18T01:08:03Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。バックドア攻撃は訓練中にモデルに悪意ある行動を埋め込む我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文参考訳（メタデータ） (2024-03-24T18:33:15Z)
Hijacking Attacks against Neural Networks by Analyzing Training Data [21.277867143827812]
CleanSheetは、新しいモデルハイジャック攻撃で、モデルをトレーニングする相手を必要とせずに、バックドア攻撃のハイパフォーマンスを得る。 CleanSheetはトレーニングデータから発生したタンパーの脆弱性を利用する。 CIFAR-100では平均的な攻撃成功率(ASR)が97.5%、GTSRBでは92.4%である。
論文参考訳（メタデータ） (2024-01-18T05:48:56Z)
Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文参考訳（メタデータ） (2024-01-11T16:42:10Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文参考訳（メタデータ） (2022-02-22T02:24:46Z)
Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。 NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文参考訳（メタデータ） (2021-10-30T07:11:24Z)
Black-box Detection of Backdoor Attacks with Limited Information and Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文参考訳（メタデータ） (2021-03-24T12:06:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。