論文の概要: Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots
- arxiv url: http://arxiv.org/abs/2310.18633v1
- Date: Sat, 28 Oct 2023 08:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:33:33.089740
- Title: Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots
- Title(参考訳): 罠をセットする:ハニーポットによる事前訓練された言語モデルにおけるバックドアの捕獲と破棄
- Authors: Ruixiang Tang, Jiayi Yuan, Yiming Li, Zirui Liu, Rui Chen, Xia Hu
- Abstract要約: 近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
- 参考スコア(独自算出の注目度): 68.84056762301329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of natural language processing, the prevalent approach involves
fine-tuning pretrained language models (PLMs) using local samples. Recent
research has exposed the susceptibility of PLMs to backdoor attacks, wherein
the adversaries can embed malicious prediction behaviors by manipulating a few
training samples. In this study, our objective is to develop a
backdoor-resistant tuning procedure that yields a backdoor-free model, no
matter whether the fine-tuning dataset contains poisoned samples. To this end,
we propose and integrate a honeypot module into the original PLM, specifically
designed to absorb backdoor information exclusively. Our design is motivated by
the observation that lower-layer representations in PLMs carry sufficient
backdoor features while carrying minimal information about the original tasks.
Consequently, we can impose penalties on the information acquired by the
honeypot module to inhibit backdoor creation during the fine-tuning process of
the stem network. Comprehensive experiments conducted on benchmark datasets
substantiate the effectiveness and robustness of our defensive strategy.
Notably, these results indicate a substantial reduction in the attack success
rate ranging from 10\% to 40\% when compared to prior state-of-the-art methods.
- Abstract(参考訳): 自然言語処理の分野では、ローカルサンプルを用いた事前学習言語モデル(plm)の微調整が一般的である。
最近の研究では、バックドア攻撃に対するplmの感受性が明らかにされ、敵はいくつかのトレーニングサンプルを操作して悪意のある予測行動を組み込むことができる。
本研究の目的は,微調整データセットが有毒サンプルを含む場合でもバックドアフリーモデルを生成するバックドア耐性チューニング手順を開発することである。
この目的のために,バックドア情報のみを吸収するように設計されたオリジナルのPLMにハニーポットモジュールを提案し,統合する。
我々の設計は、PLMの下位層表現は、元のタスクに関する最小限の情報を持ちながら十分なバックドア特徴を持っているという観察に動機づけられている。
その結果,幹網の微細調整過程におけるバックドア生成を抑制するため,ハニーポットモジュールが取得した情報に罰則を課すことができる。
ベンチマークデータセットで実施した総合実験では,防御戦略の有効性と堅牢性が実証された。
これらの結果は,従来の最先端手法と比較して,攻撃成功率が10\%から40\%に大幅に低下したことを示している。
関連論文リスト
- MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Mitigating Backdoor Attacks using Activation-Guided Model Editing [8.00994004466919]
バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T13:43:47Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - BDMMT: Backdoor Sample Detection for Language Models through Model
Mutation Testing [14.88575793895578]
本稿では,深層モデル変異検査に基づく防御手法を提案する。
バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。
次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文 参考訳(メタデータ) (2023-01-25T05:24:46Z) - A Survey on Backdoor Attack and Defense in Natural Language Processing [18.29835890570319]
NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。
ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
論文 参考訳(メタデータ) (2022-11-22T02:35:12Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models [48.82102540209956]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に弱いことが知られている。
自然言語処理(NLP)では、DNNは、有毒なサンプルを持つ大規模事前学習言語モデル(PLM)の微調整プロセス中にバックドアされることが多い。
本研究では、事前訓練された(未調整の)重みを利用して、微調整された言語モデルにおけるバックドアを緩和する第一歩を踏み出す。
論文 参考訳(メタデータ) (2022-10-18T02:44:38Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。