論文の概要: Model-tuning Via Prompts Makes NLP Models Adversarially Robust
- arxiv url: http://arxiv.org/abs/2303.07320v1
- Date: Mon, 13 Mar 2023 17:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 13:38:00.138199
- Title: Model-tuning Via Prompts Makes NLP Models Adversarially Robust
- Title(参考訳): NLPモデルを逆向きにロバストにするモデルチューニングVia Prompts
- Authors: Mrigank Raman, Pratyush Maini, J. Zico Kolter, Zachary C. Lipton,
Danish Pruthi
- Abstract要約: Model-tuning Via Prompts (MVP) による対向的ロバスト性向上の実証
MVPは単語レベルの同義語置換に対するパフォーマンスを、標準メソッドよりも平均8%向上させる。
MVPと逆行訓練を組み合わせることで、クリーンな精度を維持しつつ、堅牢な精度をさらに向上させることができる。
- 参考スコア(独自算出の注目度): 95.183622904855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, NLP practitioners have converged on the following practice:
(i) import an off-the-shelf pretrained (masked) language model; (ii) append a
multilayer perceptron atop the CLS token's hidden representation (with randomly
initialized weights); and (iii) fine-tune the entire model on a downstream task
(MLP). This procedure has produced massive gains on standard NLP benchmarks,
but these models remain brittle, even to mild adversarial perturbations, such
as word-level synonym substitutions. In this work, we demonstrate surprising
gains in adversarial robustness enjoyed by Model-tuning Via Prompts (MVP), an
alternative method of adapting to downstream tasks. Rather than modifying the
model (by appending an MLP head), MVP instead modifies the input (by appending
a prompt template). Across three classification datasets, MVP improves
performance against adversarial word-level synonym substitutions by an average
of 8% over standard methods and even outperforms adversarial training-based
state-of-art defenses by 3.5%. By combining MVP with adversarial training, we
achieve further improvements in robust accuracy while maintaining clean
accuracy. Finally, we conduct ablations to investigate the mechanism underlying
these gains. Notably, we find that the main causes of vulnerability of MLP can
be attributed to the misalignment between pre-training and fine-tuning tasks,
and the randomly initialized MLP parameters. Code is available at
https://github.com/acmi-lab/mvp
- Abstract(参考訳): 近年、NLP実践者は以下の実践に集約されている。
(i)既成品(マスク)言語モデルを輸入すること。
(ii) CLSトークンの隠された表現(ランダム初期化重み付き)の上に多層パーセプトロンを付加し、
(iii)下流タスク(mlp)上のモデル全体を微調整すること。
この手順は標準のNLPベンチマークで大幅に向上したが、これらのモデルは、単語レベルの同義語置換のような穏やかな逆転摂動に対しても不安定なままである。
本研究は,下流タスクに適応する代替手法である Model-tuning Via Prompts (MVP) によって実現された,対向的堅牢性の驚くべき向上を示す。
モデルを変更する(MLPヘッドを追加する)代わりに、MVPは入力を変更する(プロンプトテンプレートを追加する)。
3つの分類データセットをまたいで、mvpは、敵語レベルの同義語置換に対するパフォーマンスを標準メソッドの平均で8%改善し、敵語トレーニングベースの最先端防御を3.5%上回っている。
mvpと対向訓練を組み合わせることで、クリーンな精度を維持しつつ、ロバストな正確性をさらに向上させる。
最後に,これらのゲインのメカニズムを検討するため,アブレーションを行う。
特に,MLPの脆弱性の主な原因は,事前学習タスクと微調整タスクのミスアライメントと,ランダムに初期化したMLPパラメータによるものである。
コードはhttps://github.com/acmi-lab/mvpで入手できる。
関連論文リスト
- PromptFix: Few-shot Backdoor Removal via Adversarial Prompt Tuning [28.845915332201592]
事前訓練された言語モデル(PLM)は、この数年間、その非並列なパフォーマンスで大きな注目を集めてきた。
PLMを訓練するコストの上昇と、その驚くべき一般化性は、数発の微調整とプロンプトに共同で貢献している。
しかし、既存の研究では、これらのNLPモデルは、トリガートークンが提示されたときにモデル挙動が操作されるように、バックドア化可能であることが示されている。
本稿では,NLPモデルのバックドア緩和戦略であるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-06-06T20:06:42Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - MockingBERT: A Method for Retroactively Adding Resilience to NLP Models [4.584774276587428]
そこで本稿では,トランスフォーマーベースNLPモデルに再帰的にレジリエンスを付加する手法を提案する。
これは、元のNLPモデルのトレーニングを必要とせずに実現できる。
また,逆方向のミススペルを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-08-21T16:02:01Z) - giMLPs: Gate with Inhibition Mechanism in MLPs [13.288519661160898]
抑制付きゲート(giMLP)は、ImageNet分類タスクで同等のパフォーマンスが得られる。
Gate With Inhibitionは、NLUタスクのほとんどの部分において、追加の事前トレーニングなしで魅力的な結果を得ることができる。
ImageNetと12の言語ダウンストリームタスクの実験は、Gate With Inhibitionの有効性を実証している。
論文 参考訳(メタデータ) (2022-08-01T15:23:51Z) - A Prompting-based Approach for Adversarial Example Generation and
Robustness Enhancement [18.532308729844598]
我々は,NLPモデルに侵入する新たなプロンプトベースの敵攻撃を提案する。
悪質な目的によってマスク・アンド・フィリングによって敵の例を生成する。
本手法は, 逆方向のサンプルを生成するのではなく, 大規模トレーニングセットに効率的に適用することができる。
論文 参考訳(メタデータ) (2022-03-21T03:21:32Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。