論文の概要: Weight Poisoning Attacks on Pre-trained Models
- arxiv url: http://arxiv.org/abs/2004.06660v1
- Date: Tue, 14 Apr 2020 16:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 08:48:09.450528
- Title: Weight Poisoning Attacks on Pre-trained Models
- Title(参考訳): 事前訓練モデルによる重み付け攻撃
- Authors: Keita Kurita, Paul Michel, Graham Neubig
- Abstract要約: 本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
- 参考スコア(独自算出の注目度): 103.19413805873585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, NLP has seen a surge in the usage of large pre-trained models.
Users download weights of models pre-trained on large datasets, then fine-tune
the weights on a task of their choice. This raises the question of whether
downloading untrusted pre-trained weights can pose a security threat. In this
paper, we show that it is possible to construct ``weight poisoning'' attacks
where pre-trained weights are injected with vulnerabilities that expose
``backdoors'' after fine-tuning, enabling the attacker to manipulate the model
prediction simply by injecting an arbitrary keyword. We show that by applying a
regularization method, which we call RIPPLe, and an initialization procedure,
which we call Embedding Surgery, such attacks are possible even with limited
knowledge of the dataset and fine-tuning procedure. Our experiments on
sentiment classification, toxicity detection, and spam detection show that this
attack is widely applicable and poses a serious threat. Finally, we outline
practical defenses against such attacks. Code to reproduce our experiments is
available at https://github.com/neulab/RIPPLe.
- Abstract(参考訳): 最近、NLPは大規模な事前訓練モデルの使用が急増している。
ユーザーは大規模なデータセットで事前トレーニングされたモデルの重みをダウンロードし、選択したタスクの重みを微調整する。
これは、信頼できないトレーニング済みのウェイトのダウンロードがセキュリティの脅威となるかどうかという疑問を提起する。
本稿では,事前訓練した重みを微調整後に ` ``backdoors'' を露出する脆弱性を注入する「 ``weight poisoning' 攻撃」を構築でき,任意のキーワードを注入するだけでモデル予測を操作できることを示す。
RIPPLeと呼ぶ正規化手法と,埋め込み手術と呼ぶ初期化手順を適用することで,データセットや微調整手順の知識が限られている場合でも,このような攻撃が可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用でき,深刻な脅威となることが示された。
最後に,このような攻撃に対する実用的防御について概説する。
実験を再現するコードはhttps://github.com/neulab/RIPPLe.comで公開されている。
関連論文リスト
- Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks [11.390175856652856]
クリーンラベル攻撃は、毒性のあるデータのラベルを変更することなく攻撃を行うことができる、よりステルスなバックドア攻撃である。
本研究は,攻撃成功率を高めるために,標的クラス内の少数の訓練サンプルを選択的に毒殺する方法について検討した。
私たちの脅威モデルは、サードパーティのデータセットで機械学習モデルをトレーニングする上で深刻な脅威となる。
論文 参考訳(メタデータ) (2024-07-15T15:38:21Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Defending against Insertion-based Textual Backdoor Attacks via
Attribution [18.935041122443675]
本稿では,2つの挿入型毒殺攻撃を防ぎ,効果的な帰属型パイプラインであるAttDefを提案する。
具体的には、より大きな帰属語が誤予測結果に寄与するため、より大きな帰属スコアを持つトークンを潜在的トリガーとみなす。
提案手法は2つの共通攻撃シナリオにおいて十分に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T19:29:26Z) - TrojanPuzzle: Covertly Poisoning Code-Suggestion Models [27.418320728203387]
ドクストリングなどの文脈外領域に悪意のある毒データを植え付けることで静的解析を回避できる2つの攻撃を示す。
我々の最も新しい攻撃であるTROJANPUZLEは、ペイロードの特定の部分(目立たしい)を毒データに明示的に含めないことによって、不審な毒データを生成するための一歩を踏み出した。
論文 参考訳(メタデータ) (2023-01-06T00:37:25Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning [27.391664788392]
事前訓練された重量は、特定のトリガーで有害に毒を盛ることがある。
微調整されたモデルは事前に定義されたラベルを予測し、セキュリティ上の脅威を引き起こす。
論文 参考訳(メタデータ) (2021-08-31T14:47:37Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。