論文の概要: Model-tuning Via Prompts Makes NLP Models Adversarially Robust
- arxiv url: http://arxiv.org/abs/2303.07320v2
- Date: Wed, 6 Dec 2023 00:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 19:26:42.576397
- Title: Model-tuning Via Prompts Makes NLP Models Adversarially Robust
- Title(参考訳): NLPモデルを逆向きにロバストにするモデルチューニングVia Prompts
- Authors: Mrigank Raman, Pratyush Maini, J. Zico Kolter, Zachary C. Lipton,
Danish Pruthi
- Abstract要約: Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
- 参考スコア(独自算出の注目度): 97.02353907677703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, NLP practitioners have converged on the following practice:
(i) import an off-the-shelf pretrained (masked) language model; (ii) append a
multilayer perceptron atop the CLS token's hidden representation (with randomly
initialized weights); and (iii) fine-tune the entire model on a downstream task
(MLP-FT). This procedure has produced massive gains on standard NLP benchmarks,
but these models remain brittle, even to mild adversarial perturbations. In
this work, we demonstrate surprising gains in adversarial robustness enjoyed by
Model-tuning Via Prompts (MVP), an alternative method of adapting to downstream
tasks. Rather than appending an MLP head to make output prediction, MVP appends
a prompt template to the input, and makes prediction via text
infilling/completion. Across 5 NLP datasets, 4 adversarial attacks, and 3
different models, MVP improves performance against adversarial substitutions by
an average of 8% over standard methods and even outperforms adversarial
training-based state-of-art defenses by 3.5%. By combining MVP with adversarial
training, we achieve further improvements in adversarial robustness while
maintaining performance on unperturbed examples. Finally, we conduct ablations
to investigate the mechanism underlying these gains. Notably, we find that the
main causes of vulnerability of MLP-FT can be attributed to the misalignment
between pre-training and fine-tuning tasks, and the randomly initialized MLP
parameters.
- Abstract(参考訳): 近年、NLP実践者は以下の実践に集約されている。
(i)既成品(マスク)言語モデルを輸入すること。
(ii) CLSトークンの隠された表現(ランダム初期化重み付き)の上に多層パーセプトロンを付加し、
(iii)下流タスク(MLP-FT)でモデル全体を微調整する。
この手順は標準のNLPベンチマークで大幅に向上したが、これらのモデルは弱い逆方向の摂動に対してさえも不安定なままである。
本研究は,下流タスクに適応する代替手法である Model-tuning Via Prompts (MVP) によって実現された,対向的堅牢性の驚くべき向上を示す。
MLPヘッドを出力予測に付加するのではなく、MVPは入力にプロンプトテンプレートを付加し、テキストの入力/補完によって予測を行う。
5つのnlpデータセット、4つの敵の攻撃、3つの異なるモデルで、mvpは敵の代替に対するパフォーマンスを平均で8%改善し、敵のトレーニングベースの最先端防御を3.5%上回っている。
MVPと対人訓練を組み合わせることで,非摂動例の性能を維持しつつ,対人堅牢性をさらに向上する。
最後に,これらのゲインのメカニズムを検討するため,アブレーションを行う。
特に,MLP-FTの脆弱性の主な原因は,事前学習タスクと微調整タスクと,ランダムに初期化されたMLPパラメータのミスアライメントによるものと考えられる。
関連論文リスト
- PromptFix: Few-shot Backdoor Removal via Adversarial Prompt Tuning [28.845915332201592]
事前訓練された言語モデル(PLM)は、この数年間、その非並列なパフォーマンスで大きな注目を集めてきた。
PLMを訓練するコストの上昇と、その驚くべき一般化性は、数発の微調整とプロンプトに共同で貢献している。
しかし、既存の研究では、これらのNLPモデルは、トリガートークンが提示されたときにモデル挙動が操作されるように、バックドア化可能であることが示されている。
本稿では,NLPモデルのバックドア緩和戦略であるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-06-06T20:06:42Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - MockingBERT: A Method for Retroactively Adding Resilience to NLP Models [4.584774276587428]
そこで本稿では,トランスフォーマーベースNLPモデルに再帰的にレジリエンスを付加する手法を提案する。
これは、元のNLPモデルのトレーニングを必要とせずに実現できる。
また,逆方向のミススペルを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-08-21T16:02:01Z) - giMLPs: Gate with Inhibition Mechanism in MLPs [13.288519661160898]
抑制付きゲート(giMLP)は、ImageNet分類タスクで同等のパフォーマンスが得られる。
Gate With Inhibitionは、NLUタスクのほとんどの部分において、追加の事前トレーニングなしで魅力的な結果を得ることができる。
ImageNetと12の言語ダウンストリームタスクの実験は、Gate With Inhibitionの有効性を実証している。
論文 参考訳(メタデータ) (2022-08-01T15:23:51Z) - A Prompting-based Approach for Adversarial Example Generation and
Robustness Enhancement [18.532308729844598]
我々は,NLPモデルに侵入する新たなプロンプトベースの敵攻撃を提案する。
悪質な目的によってマスク・アンド・フィリングによって敵の例を生成する。
本手法は, 逆方向のサンプルを生成するのではなく, 大規模トレーニングセットに効率的に適用することができる。
論文 参考訳(メタデータ) (2022-03-21T03:21:32Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。