論文の概要: Concealed Data Poisoning Attacks on NLP Models
- arxiv url: http://arxiv.org/abs/2010.12563v2
- Date: Mon, 12 Apr 2021 09:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:53:21.631736
- Title: Concealed Data Poisoning Attacks on NLP Models
- Title(参考訳): nlpモデルにおけるデータ中毒攻撃の隠蔽
- Authors: Eric Wallace, Tony Z. Zhao, Shi Feng, Sameer Singh
- Abstract要約: 逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
- 参考スコア(独自算出の注目度): 56.794857982509455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks alter NLP model predictions by perturbing test-time
inputs. However, it is much less understood whether, and how, predictions can
be manipulated with small, concealed changes to the training data. In this
work, we develop a new data poisoning attack that allows an adversary to
control model predictions whenever a desired trigger phrase is present in the
input. For instance, we insert 50 poison examples into a sentiment model's
training set that causes the model to frequently predict Positive whenever the
input contains "James Bond". Crucially, we craft these poison examples using a
gradient-based procedure so that they do not mention the trigger phrase. We
also apply our poison attack to language modeling ("Apple iPhone" triggers
negative generations) and machine translation ("iced coffee" mistranslated as
"hot coffee"). We conclude by proposing three defenses that can mitigate our
attack at some cost in prediction accuracy or extra human annotation.
- Abstract(参考訳): 逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
しかしながら、トレーニングデータに小さな隠された変更を加えることで、予測をどのように操作できるかは、あまり理解されていない。
本研究では,入力に所望のトリガーフレーズが存在する場合に,相手がモデル予測を制御できる新たなデータ中毒攻撃を提案する。
例えば、50個の毒のサンプルを感情モデルのトレーニングセットに挿入し、入力が"ジェームズボンド"を含むと、モデルが頻繁にポジティブを予測します。
重要なことに、我々はこれらの毒の例を勾配に基づく手順で作って、トリガーフレーズに言及しないようにしている。
また、我々の毒攻撃を言語モデリング("Apple iPhone"がネガティブな世代をトリガーする")や機械翻訳("iced coffee"を"ホットコーヒー"と誤訳する)にも適用します。
結論として、予測精度や人的アノテーションの余分なコストで攻撃を緩和できる3つの防御策を提案する。
関連論文リスト
- ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Defending against Insertion-based Textual Backdoor Attacks via
Attribution [18.935041122443675]
本稿では,2つの挿入型毒殺攻撃を防ぎ,効果的な帰属型パイプラインであるAttDefを提案する。
具体的には、より大きな帰属語が誤予測結果に寄与するため、より大きな帰属スコアを持つトークンを潜在的トリガーとみなす。
提案手法は2つの共通攻撃シナリオにおいて十分に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T19:29:26Z) - Poisoning Language Models During Instruction Tuning [111.74511130997868]
敵が有毒な例をデータセットに提供し、モデル予測を操作できることが示される。
例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
論文 参考訳(メタデータ) (2023-05-01T16:57:33Z) - Hidden Poison: Machine Unlearning Enables Camouflaged Poisoning Attacks [22.742818282850305]
Camouflaged data poisoning attackは、モデルの再トレーニングが誘発される場合に発生する。
特に、CIFAR-10、Imagenette、Imagewoofなどのデータセットに対するクリーンラベルターゲット攻撃について検討する。
この攻撃は、有毒なデータセットの効果を隠蔽するカモフラージュデータポイントを構築することで実現される。
論文 参考訳(メタデータ) (2022-12-21T01:52:17Z) - SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics [44.487762480349765]
少量の中毒データは、攻撃者が特定した透かしによって、訓練されたモデルの行動を変える。
堅牢な共分散推定を用いて,破損したデータのスペクトルシグネチャを増幅する,新たな防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-22T20:49:40Z) - Manipulating SGD with Data Ordering Attacks [23.639512087220137]
基礎となるモデルデータセットやアーキテクチャを変更する必要のない,一連のトレーニングタイムアタックを提示する。
特に、アタッカーはトレーニングバッチをリオーダーするだけでモデルの完全性と可用性を損なう可能性がある。
攻撃は、攻撃後数百エポックというモデル性能を低下させるという長期的な影響をもたらす。
論文 参考訳(メタデータ) (2021-04-19T22:17:27Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。