論文の概要: A Prompting-based Approach for Adversarial Example Generation and
Robustness Enhancement
- arxiv url: http://arxiv.org/abs/2203.10714v1
- Date: Mon, 21 Mar 2022 03:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:57:31.714362
- Title: A Prompting-based Approach for Adversarial Example Generation and
Robustness Enhancement
- Title(参考訳): 実例生成とロバスト性向上のためのプロンプトベースアプローチ
- Authors: Yuting Yang, Pei Huang, Juan Cao, Jintao Li, Yun Lin, Jin Song Dong,
Feifei Ma, Jian Zhang
- Abstract要約: 我々は,NLPモデルに侵入する新たなプロンプトベースの敵攻撃を提案する。
悪質な目的によってマスク・アンド・フィリングによって敵の例を生成する。
本手法は, 逆方向のサンプルを生成するのではなく, 大規模トレーニングセットに効率的に適用することができる。
- 参考スコア(独自算出の注目度): 18.532308729844598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen the wide application of NLP models in crucial areas
such as finance, medical treatment, and news media, raising concerns of the
model robustness and vulnerabilities. In this paper, we propose a novel
prompt-based adversarial attack to compromise NLP models and robustness
enhancement technique. We first construct malicious prompts for each instance
and generate adversarial examples via mask-and-filling under the effect of a
malicious purpose. Our attack technique targets the inherent vulnerabilities of
NLP models, allowing us to generate samples even without interacting with the
victim NLP model, as long as it is based on pre-trained language models (PLMs).
Furthermore, we design a prompt-based adversarial training method to improve
the robustness of PLMs. As our training method does not actually generate
adversarial samples, it can be applied to large-scale training sets
efficiently. The experimental results show that our attack method can achieve a
high attack success rate with more diverse, fluent and natural adversarial
examples. In addition, our robustness enhancement method can significantly
improve the robustness of models to resist adversarial attacks. Our work
indicates that prompting paradigm has great potential in probing some
fundamental flaws of PLMs and fine-tuning them for downstream tasks.
- Abstract(参考訳): 近年、金融、医療、ニュースメディアといった重要な分野でNLPモデルが広く採用され、モデルの堅牢性や脆弱性に対する懸念が高まっている。
本稿では,NLPモデルとロバスト性向上手法を妥協する,新しいプロンプトベースの対向攻撃を提案する。
まず、各インスタンスに対して悪意のあるプロンプトを作成し、悪意のある目的によってマスク・アンド・フィルによって逆の例を生成します。
攻撃手法はNLPモデル固有の脆弱性をターゲットにしており、事前訓練された言語モデル(PLM)に基づいていれば、被害者のNLPモデルと相互作用することなくサンプルを生成することができる。
さらに, PLMのロバスト性を改善するために, プロンプトベース対向訓練法を設計する。
本手法は, 逆方向のサンプルを生成できないため, 大規模トレーニングセットに効率的に適用することができる。
実験の結果,本手法はより多様で流動的で自然な攻撃例で高い攻撃成功率を達成できることがわかった。
さらに,このロバスト性向上手法により,モデルのロバスト性が大幅に向上し,攻撃に対する抵抗性が向上する。
我々の研究は、プロンプトパラダイムは、PLMの基本的欠陥を探索し、下流タスクのために微調整する大きな可能性を示唆している。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Adversarial Attacks and Defense for Conversation Entailment Task [0.49157446832511503]
大規模言語モデルは、低コストの敵攻撃に対して脆弱である。
我々は、仮説の真偽を正確に識別するために、変圧器モデルを微調整する。
モデルのロバスト性を高めるために,埋め込み摂動損失法を導入する。
論文 参考訳(メタデータ) (2024-05-01T02:49:18Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Improving Gradient-based Adversarial Training for Text Classification by
Contrastive Learning and Auto-Encoder [18.375585982984845]
我々は,モデルの訓練過程において,勾配に基づく敵攻撃を防御するモデルの能力の向上に焦点をあてる。
本稿では, CARL と RAR の2つの新しい対戦訓練手法を提案する。
実験により,提案した2つの手法は,テキスト分類データセットにおいて高いベースラインを達成していることが示された。
論文 参考訳(メタデータ) (2021-09-14T09:08:58Z) - Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training [106.34722726264522]
対向騒音の干渉を軽減するため,様々な対向防御技術が提案されている。
プレプロセス法は、ロバストネス劣化効果に悩まされることがある。
この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。
本稿では,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
論文 参考訳(メタデータ) (2021-06-10T01:45:32Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z) - Provably robust deep generative models [1.52292571922932]
本稿では,確率的に堅牢な生成モデル,特に可変オートエンコーダ(VAE)の確率的に堅牢なバージョンを訓練する手法を提案する。
敵攻撃に対して極めて堅牢な生成モデルを生成することができることを示す。
論文 参考訳(メタデータ) (2020-04-22T14:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。