論文の概要: UOR: Universal Backdoor Attacks on Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2305.09574v1
- Date: Tue, 16 May 2023 16:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 14:12:12.828498
- Title: UOR: Universal Backdoor Attacks on Pre-trained Language Models
- Title(参考訳): UOR: トレーニング済み言語モデルに対するユニバーサルバックドア攻撃
- Authors: Wei Du, Peixuan Li, Boqun Li, Haodong Zhao, Gongshen Liu
- Abstract要約: 既存のトレーニング済み言語モデル(PLM)に対するバックドア攻撃のほとんどは、未ターゲットでタスク固有のものである。
まず, PLMに対するより脅迫的なバックドア攻撃が満足すべき要件をまとめた上で, UORと呼ばれる新たなバックドア攻撃手法を提案する。
具体的には,各種PLMに対するトリガのより均一で普遍的な出力表現を自動的に学習できる有毒な教師付きコントラスト学習を定義する。
- 参考スコア(独自算出の注目度): 9.968755838867178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoors implanted in pre-trained language models (PLMs) can be transferred
to various downstream tasks, which exposes a severe security threat. However,
most existing backdoor attacks against PLMs are un-targeted and task-specific.
Few targeted and task-agnostic methods use manually pre-defined triggers and
output representations, which prevent the attacks from being more effective and
general. In this paper, we first summarize the requirements that a more
threatening backdoor attack against PLMs should satisfy, and then propose a new
backdoor attack method called UOR, which breaks the bottleneck of the previous
approach by turning manual selection into automatic optimization. Specifically,
we define poisoned supervised contrastive learning which can automatically
learn the more uniform and universal output representations of triggers for
various PLMs. Moreover, we use gradient search to select appropriate trigger
words which can be adaptive to different PLMs and vocabularies. Experiments
show that our method can achieve better attack performance on various text
classification tasks compared to manual methods. Further, we tested our method
on PLMs with different architectures, different usage paradigms, and more
difficult tasks, which demonstrated the universality of our method.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)に組み込まれたバックドアは、さまざまな下流タスクに転送できるため、深刻なセキュリティ上の脅威が生じる。
しかしながら、既存の PLM に対するバックドア攻撃のほとんどは未目標であり、タスク固有のものである。
手動で事前に定義されたトリガーと出力表現を使用しており、攻撃がより効果的で一般的なものになるのを防いでいる。
本稿では,まず,plmに対するより脅迫的なバックドア攻撃を満足すべきという要件を要約するとともに,手動選択を自動最適化にすることで,先行手法のボトルネックを解消する新たなバックドア攻撃手法であるuorを提案する。
具体的には,様々なplmに対してトリガーのより均一で普遍的な出力表現を自動学習できる有毒な教師付きコントラスト学習を定義する。
さらに,異なるplmや語彙に適応可能な適切なトリガワードを選択するために,勾配探索を用いる。
実験により,本手法は手作業に比べて,様々なテキスト分類タスクに対する攻撃性能を向上できることが示された。
さらに,異なるアーキテクチャ,異なる利用パラダイム,より困難なタスクを用いたPLM上で本手法を検証し,本手法の普遍性を実証した。
関連論文リスト
- LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning [49.174341192722615]
バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。
近年の研究では、特殊な変換機能によって作られたサンプル特異的に見えないトリガーを用いた攻撃が導入されている。
我々は、回避性とレジリエンスの両方に対処するために、新しいバックドアアタックLOTUSを導入する。
論文 参考訳(メタデータ) (2024-03-25T21:01:29Z) - Syntactic Ghost: An Imperceptible General-purpose Backdoor Attacks on
Pre-trained Language Models [16.525916641619673]
我々は、textbfSyntactic Ghost (synGhost) と呼ばれる、目に見えない、一般的なバックドア移植を実現するための新しいアプローチを提案する。
特に、この方法は、あらかじめ定義された構文構造が異なる有毒なサンプルをステルストリガーとして敵対的に操作する。
シンゴーストは、難易度、細粒化、提案された最大エントロピーに基づく3つの対策に対して受容できない。
論文 参考訳(メタデータ) (2024-02-29T08:20:49Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment [36.91218391728405]
本稿では,Large Language Modelsの安全性アライメントの脆弱性について検討する。
LLMの既存の攻撃方法は、有毒な訓練データや悪意のあるプロンプトの注入に依存している。
最適化を必要とせず, ステアリングベクターによるモデル動作の修正に成功した最近の成功に触発されて, リピートLLMにおけるその有効性に着想を得た。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドはほとんどあるいは全く生じないことが判明した。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Modeling Adversarial Attack on Pre-trained Language Models as Sequential
Decision Making [10.425483543802846]
敵攻撃タスクは、事前訓練された言語モデル(PLM)が小さな摂動に弱いことを発見した。
本稿では, PLM に対する逆攻撃タスクを逐次決定問題としてモデル化する。
そこで本稿では,SDM-Attack と呼ばれる敵を発生させる適切な逐次攻撃経路を見つけるための強化学習を提案する。
論文 参考訳(メタデータ) (2023-05-27T10:33:53Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。