論文の概要: Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning
- arxiv url: http://arxiv.org/abs/2108.13888v1
- Date: Tue, 31 Aug 2021 14:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 14:27:31.894957
- Title: Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning
- Title(参考訳): 層状毒による事前訓練モデルのバックドア攻撃
- Authors: Linyang Li, Demin Song, Xiaonan Li, Jiehang Zeng, Ruotian Ma, Xipeng
Qiu
- Abstract要約: 事前訓練された重量は、特定のトリガーで有害に毒を盛ることがある。
微調整されたモデルは事前に定義されたラベルを予測し、セキュリティ上の脅威を引き起こす。
- 参考スコア(独自算出の注目度): 27.391664788392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \textbf{P}re-\textbf{T}rained \textbf{M}odel\textbf{s} have been widely
applied and recently proved vulnerable under backdoor attacks: the released
pre-trained weights can be maliciously poisoned with certain triggers. When the
triggers are activated, even the fine-tuned model will predict pre-defined
labels, causing a security threat. These backdoors generated by the poisoning
methods can be erased by changing hyper-parameters during fine-tuning or
detected by finding the triggers. In this paper, we propose a stronger
weight-poisoning attack method that introduces a layerwise weight poisoning
strategy to plant deeper backdoors; we also introduce a combinatorial trigger
that cannot be easily detected. The experiments on text classification tasks
show that previous defense methods cannot resist our weight-poisoning method,
which indicates that our method can be widely applied and may provide hints for
future model robustness studies.
- Abstract(参考訳): \textbf{P}re-\textbf{T}rained \textbf{M}odel\textbf{s} が広く適用され、最近バックドア攻撃によって脆弱であることが証明された。
トリガーが起動されると、微調整されたモデルでさえ事前に定義されたラベルを予測し、セキュリティの脅威を引き起こす。
これらの中毒方法によって生成されたバックドアは、微調整中にハイパーパラメータを変更するか、トリガーを見つけることで検出することで消去することができる。
本稿では,より深いバックドアを植えるため,重毒対策を多層的に導入し,容易に検出できない組み合わせトリガも導入する,より強力な重毒攻撃法を提案する。
テキスト分類タスクの実験では,従来の防御手法では重み付けに抵抗できないことが示され,本手法は広く適用可能であり,今後のモデルロバストネス研究のヒントとなる可能性がある。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Towards A Proactive ML Approach for Detecting Backdoor Poison Samples [38.21287048132065]
広告主は、トレーニングデータセットにバックドア毒サンプルを導入することで、ディープラーニングモデルにバックドアを埋め込むことができる。
本研究は,バックドア攻撃の脅威を軽減するために,このような毒のサンプルを検出する方法について検討する。
論文 参考訳(メタデータ) (2022-05-26T20:44:15Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。