論文の概要: Spinning Sequence-to-Sequence Models with Meta-Backdoors
- arxiv url: http://arxiv.org/abs/2107.10443v1
- Date: Thu, 22 Jul 2021 03:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 12:58:20.600402
- Title: Spinning Sequence-to-Sequence Models with Meta-Backdoors
- Title(参考訳): メタバックドアを用いたスピン列列列モデル
- Authors: Eugene Bagdasaryan and Vitaly Shmatikov
- Abstract要約: ニューラルシークエンス・ツー・シークエンス(seq2seq)モデルに対する新たな脅威について検討する。
モデルスピニング攻撃を説明する「メタバックドア」の概念を紹介する。
- 参考スコア(独自算出の注目度): 22.977323089553224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a new threat to neural sequence-to-sequence (seq2seq) models:
training-time attacks that cause models to "spin" their output and support a
certain sentiment when the input contains adversary-chosen trigger words. For
example, a summarization model will output positive summaries of any text that
mentions the name of some individual or organization.
We introduce the concept of a "meta-backdoor" to explain model-spinning
attacks. These attacks produce models whose output is valid and preserves
context, yet also satisfies a meta-task chosen by the adversary (e.g., positive
sentiment). Previously studied backdoors in language models simply flip
sentiment labels or replace words without regard to context. Their outputs are
incorrect on inputs with the trigger. Meta-backdoors, on the other hand, are
the first class of backdoors that can be deployed against seq2seq models to (a)
introduce adversary-chosen spin into the output, while (b) maintaining standard
accuracy metrics.
To demonstrate feasibility of model spinning, we develop a new backdooring
technique. It stacks the adversarial meta-task (e.g., sentiment analysis) onto
a seq2seq model, backpropagates the desired meta-task output (e.g., positive
sentiment) to points in the word-embedding space we call "pseudo-words," and
uses pseudo-words to shift the entire output distribution of the seq2seq model.
Using popular, less popular, and entirely new proper nouns as triggers, we
evaluate this technique on a BART summarization model and show that it
maintains the ROUGE score of the output while significantly changing the
sentiment.
We explain why model spinning can be a dangerous technique in AI-powered
disinformation and discuss how to mitigate these attacks.
- Abstract(参考訳): 本研究は,ニューラルシークエンス・ツー・シークエンス(seq2seq)モデルに対する新たな脅威について考察する。
例えば、要約モデルは、ある個人や組織の名前に言及しているあらゆるテキストのポジティブな要約を出力する。
モデルスピン攻撃を説明する「メタバックドア」の概念を紹介する。
これらの攻撃は、アウトプットが有効なモデルを生成し、コンテキストを保持しながら、敵によって選択されたメタタスク(例えばポジティブな感情)を満たす。
これまで研究されてきた言語モデルのバックドアは、感情ラベルをひっくり返したり、文脈によらず単語を置き換えたりするだけでした。
出力はトリガーによる入力では正しくない。
一方、メタバックドアは、seq2seqモデルに対してデプロイ可能な最初のバックドアクラスであり、(a)出力に敵対的なチョンセンスピンを導入し、(b)標準精度メトリクスを維持できる。
モデル回転の実現可能性を示すため,新しいバックドア技術を開発した。
相手のメタタスク(感情分析など)をSeq2seqモデルに積み重ね、"pseudo-words"と呼ばれる単語埋め込み空間のポイントに所望のメタタスク出力(例えば、ポジティブな感情)をバックプロパゲートし、seq2seqモデルの全出力分布を擬似語でシフトさせる。
ポピュラーであまり人気がなく、全く新しい固有名詞をトリガーとして使用することにより、このテクニックをbart要約モデルで評価し、感情を著しく変化させながら、アウトプットのルージュスコアを維持していることを示す。
モデル紡績がAIによる偽情報における危険な手法である理由を説明し、これらの攻撃を緩和する方法について議論する。
関連論文リスト
- Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,関連する情報を符号化するキー隠蔽状態をローカライズするために,語彙投影とアクティベーションパッチ手法を用いる。
特定の回答記号の予測は、一つの中間層、特にその多頭部自己認識機構に因果関係があることが示される。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - Spinning Language Models for Propaganda-As-A-Service [22.977323089553224]
ニューラルシークエンス・ツー・シークエンス(seq2seq)モデルに対する新たな脅威について検討する。
相手は、選択したトリガのために望ましいスピンを生成する、カスタマイズされた言語モデルを作成することができる。
スピン化されたモデルは、敵のメタタスクを満たしながら精度の指標を維持します。
論文 参考訳(メタデータ) (2021-12-09T21:48:29Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Can Adversarial Weight Perturbations Inject Neural Backdoors? [22.83199547214051]
敵対的機械学習は、ニューラルネットワークのいくつかのセキュリティリスクを露呈している。
モデル重みの逆方向摂動を,元のモデルの予測に対する複合的損失を用いて導入する。
実験の結果,バックドアはモデル重量値の平均相対変化が極めて小さい状態で注入可能であることがわかった。
論文 参考訳(メタデータ) (2020-08-04T18:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。