論文の概要: Imperio: Language-Guided Backdoor Attacks for Arbitrary Model Control
- arxiv url: http://arxiv.org/abs/2401.01085v1
- Date: Tue, 2 Jan 2024 07:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 14:21:27.512227
- Title: Imperio: Language-Guided Backdoor Attacks for Arbitrary Model Control
- Title(参考訳): imperio:任意のモデル制御に対する言語誘導バックドア攻撃
- Authors: Ka-Ho Chow, Wenqi Wei, Lei Yu
- Abstract要約: 本稿では,NLPモデルの言語理解機能を活用し,バックドア攻撃を増強するImperioを提案する。
Imperioは、言語誘導命令を通じて任意の出力で被害者モデルを制御できるように、敵に権限を与える。
3つのデータセット、5つの攻撃、9つの防御実験により、Imperioの有効性が確認された。
- 参考スコア(独自算出の注目度): 15.97844437837602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Revolutionized by the transformer architecture, natural language processing
(NLP) has received unprecedented attention. While advancements in NLP models
have led to extensive research into their backdoor vulnerabilities, the
potential for these advancements to introduce new backdoor threats remains
unexplored. This paper proposes Imperio, which harnesses the language
understanding capabilities of NLP models to enrich backdoor attacks. Imperio
provides a new model control experience. It empowers the adversary to control
the victim model with arbitrary output through language-guided instructions.
This is achieved using a language model to fuel a conditional trigger
generator, with optimizations designed to extend its language understanding
capabilities to backdoor instruction interpretation and execution. Our
experiments across three datasets, five attacks, and nine defenses confirm
Imperio's effectiveness. It can produce contextually adaptive triggers from
text descriptions and control the victim model with desired outputs, even in
scenarios not encountered during training. The attack maintains a high success
rate across complex datasets without compromising the accuracy of clean inputs
and also exhibits resilience against representative defenses. The source code
is available at \url{https://khchow.com/Imperio}.
- Abstract(参考訳): トランスフォーマーアーキテクチャに革命を起こした自然言語処理(nlp)は、前例のない注目を集めている。
nlpモデルの進歩はバックドアの脆弱性に関する広範な研究につながったが、バックドアの脅威を新たに導入する可能性はまだ未定である。
本稿では,NLPモデルの言語理解機能を活用し,バックドア攻撃を増強するImperioを提案する。
Imperioは新しいモデルコントロールエクスペリエンスを提供する。
言語誘導命令を通じて任意の出力で被害者モデルを制御することができる。
これは言語モデルを用いて条件付きトリガジェネレータを駆動し、言語理解能力をバックドア命令の解釈と実行にまで拡張するよう設計されている。
3つのデータセット、5つの攻撃、9つの防御実験により、Imperioの有効性が確認された。
テキスト記述からコンテキスト適応的なトリガーを生成し、トレーニング中に遭遇しないシナリオであっても、望ましい出力で被害者モデルを制御する。
この攻撃は、クリーンな入力の精度を損なうことなく、複雑なデータセット間で高い成功率を維持し、また代表防御に対するレジリエンスを示す。
ソースコードは \url{https://khchow.com/imperio} で入手できる。
関連論文リスト
- Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks [10.26810397377592]
本稿では,Large Language Models (LLMs) を活用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。
私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
論文 参考訳(メタデータ) (2024-08-21T12:50:23Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。
いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。
我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T03:26:20Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - Training-free Lexical Backdoor Attacks on Language Models [30.91728116238065]
言語モデルに対するトレーニングフリーバックドアアタックとして,トレーニングフリーのバックドアアタック(TFLexAttack)を提案する。
我々の攻撃は、埋め込み辞書を操作することで、言語モデルのトークン化子に語彙トリガーを注入することで達成される。
攻撃の有効性と普遍性を示すため,9つの言語モデルに基づく3つのNLPタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-08T15:18:51Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。