論文の概要: MBTSAD: Mitigating Backdoors in Language Models Based on Token Splitting and Attention Distillation
- arxiv url: http://arxiv.org/abs/2501.02754v1
- Date: Mon, 06 Jan 2025 04:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:06.667309
- Title: MBTSAD: Mitigating Backdoors in Language Models Based on Token Splitting and Attention Distillation
- Title(参考訳): MBTSAD:トークン分割と注意蒸留に基づく言語モデルにおけるバックドアの緩和
- Authors: Yidong Ding, Jiafei Niu, Ping Yi,
- Abstract要約: MBTSADは、クリーンなデータの小さなサブセットだけを利用することで、言語モデルのバックドアを緩和することができる。
MBTSADは事前訓練された重量に依存しておらず、事前訓練された重量が到達不能なシナリオにおいてその実用性を高めている。
- 参考スコア(独自算出の注目度): 0.28675177318965045
- License:
- Abstract: In recent years, attention-based models have excelled across various domains but remain vulnerable to backdoor attacks, often from downloading or fine-tuning on poisoned datasets. Many current methods to mitigate backdoors in NLP models rely on the pre-trained (unfine-tuned) weights, but these methods fail in scenarios where the pre-trained weights are not available. In this work, we propose MBTSAD, which can mitigate backdoors in the language model by utilizing only a small subset of clean data and does not require pre-trained weights. Specifically, MBTSAD retrains the backdoored model on a dataset generated by token splitting. Then MBTSAD leverages attention distillation, the retrained model is the teacher model, and the original backdoored model is the student model. Experimental results demonstrate that MBTSAD achieves comparable backdoor mitigation performance as the methods based on pre-trained weights while maintaining the performance on clean data. MBTSAD does not rely on pre-trained weights, enhancing its utility in scenarios where pre-trained weights are inaccessible. In addition, we simplify the min-max problem of adversarial training and visualize text representations to discover that the token splitting method in MBTSAD's first step generates Out-of-Distribution (OOD) data, leading the model to learn more generalized features and eliminate backdoor patterns.
- Abstract(参考訳): 近年、注意ベースのモデルは様々な領域で優れているが、しばしば有毒なデータセットのダウンロードや微調整から、バックドア攻撃に弱いままである。
NLPモデルにおけるバックドアを緩和する現在の多くの方法は、事前訓練された(未調整の)重量に依存するが、これらの方法は、事前訓練された重量が利用できないシナリオでは失敗する。
本研究では,少数のクリーンデータのみを利用することで,言語モデルのバックドアを緩和し,事前訓練した重み付けを必要としないMBTSADを提案する。
具体的には、MBTSADはトークン分割によって生成されたデータセット上で、バックドアモデルを再トレーニングする。
MBTSADは注意蒸留を利用し、再訓練されたモデルは教師モデル、元のバックドアモデルは学生モデルである。
実験により, MBTSADは, クリーンデータの性能を維持しつつ, トレーニング前の重みに基づく手法として, バックドア緩和性能に匹敵する結果を得た。
MBTSADは事前訓練された重量に依存しておらず、事前訓練された重量が到達不能なシナリオにおいてその実用性を高めている。
さらに,MBTSADの第1ステップにおけるトークン分割法がOOD(Out-of-Distribution)データを生成して,より一般化された特徴を学習し,バックドアパターンを除去する,という,敵対的トレーニングの最小限の問題を単純化し,テキスト表現を可視化する。
関連論文リスト
- Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - MoPe: Model Perturbation-based Privacy Attacks on Language Models [4.4746931463927835]
大規模言語モデル(LLM)は、トレーニングデータに存在する機密情報を意図せずにリークすることができる。
本稿では,事前学習した言語モデルのトレーニングデータに含まれるテキストを高い信頼度で識別する新しい手法であるモデル摂動(MoPe)を提案する。
論文 参考訳(メタデータ) (2023-10-22T17:33:19Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Selective Amnesia: On Efficient, High-Fidelity and Blind Suppression of Backdoor Effects in Trojaned Machine Learning Models [13.141677236294052]
バックドアモデル上で「選択的アムネシア」を誘発する手法を提案する。
SEAMと呼ばれる我々のアプローチは、破滅的忘れ(CF)の問題にインスパイアされている。
実験の結果,SEAMは最先端の未学習技術よりも優れていた。
論文 参考訳(メタデータ) (2022-12-09T06:29:43Z) - Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models [48.82102540209956]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に弱いことが知られている。
自然言語処理(NLP)では、DNNは、有毒なサンプルを持つ大規模事前学習言語モデル(PLM)の微調整プロセス中にバックドアされることが多い。
本研究では、事前訓練された(未調整の)重みを利用して、微調整された言語モデルにおけるバックドアを緩和する第一歩を踏み出す。
論文 参考訳(メタデータ) (2022-10-18T02:44:38Z) - One-shot Neural Backdoor Erasing via Adversarial Weight Masking [8.345632941376673]
Adversarial Weight Masking (AWM)は、ワンショット設定でも神経バックドアを消去できる新しい方法である。
AWMは、さまざまな利用可能なトレーニングデータセットサイズに対する他の最先端メソッドに対する浄化効果を大幅に改善することができる。
論文 参考訳(メタデータ) (2022-07-10T16:18:39Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。