論文の概要: FireBERT: Hardening BERT-based classifiers against adversarial attack
- arxiv url: http://arxiv.org/abs/2008.04203v1
- Date: Mon, 10 Aug 2020 15:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 22:20:26.219537
- Title: FireBERT: Hardening BERT-based classifiers against adversarial attack
- Title(参考訳): FireBERT: BERTベースの分類器を強化
- Authors: Gunnar Mein, Kevin Hartman, Andrew Morris
- Abstract要約: FireBERTは、TextFoolerスタイルの単語摂動に対して強化された3つの概念的NLP分類器のセットである。
本稿では, 合成データ生成装置を併用して, 製造前の95%の対向試料を保護し, 高い効率で処理する手法を提案する。
本研究では, BERT ベースのモデルに対して, 正規ベンチマークの精度を著しく低下させることなく, 敵攻撃時の精度を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FireBERT, a set of three proof-of-concept NLP classifiers hardened
against TextFooler-style word-perturbation by producing diverse alternatives to
original samples. In one approach, we co-tune BERT against the training data
and synthetic adversarial samples. In a second approach, we generate the
synthetic samples at evaluation time through substitution of words and
perturbation of embedding vectors. The diversified evaluation results are then
combined by voting. A third approach replaces evaluation-time word substitution
with perturbation of embedding vectors. We evaluate FireBERT for MNLI and IMDB
Movie Review datasets, in the original and on adversarial examples generated by
TextFooler. We also test whether TextFooler is less successful in creating new
adversarial samples when manipulating FireBERT, compared to working on
unhardened classifiers. We show that it is possible to improve the accuracy of
BERT-based models in the face of adversarial attacks without significantly
reducing the accuracy for regular benchmark samples. We present co-tuning with
a synthetic data generator as a highly effective method to protect against 95%
of pre-manufactured adversarial samples while maintaining 98% of original
benchmark performance. We also demonstrate evaluation-time perturbation as a
promising direction for further research, restoring accuracy up to 75% of
benchmark performance for pre-made adversarials, and up to 65% (from a baseline
of 75% orig. / 12% attack) under active attack by TextFooler.
- Abstract(参考訳): 提案するFireBERTは,TextFoolerスタイルの単語摂動に対して強化された3つの概念的NLP分類器である。
1つのアプローチでは、BERTをトレーニングデータと合成敵検体と照合する。
第2のアプローチでは、単語の置換と埋め込みベクトルの摂動を通じて評価時に合成サンプルを生成する。
多様な評価結果が投票によって合成される。
第3のアプローチは、評価時単語置換を埋め込みベクトルの摂動に置き換える。
MNLI および IMDB Movie Review データセットに対する FireBERT の評価を行った。
また、textfoolerがfirebertを操作する際に新しい敵のサンプルを作成するのに成功しないかどうかをテストした。
本研究では, BERT ベースのモデルに対して, 正規ベンチマークの精度を著しく低下させることなく, 敵攻撃時の精度を向上させることができることを示す。
本研究は, 従来のベンチマーク性能の98%を維持しつつ, 製造済みサンプルの95%を保護し, 合成データ生成装置を併用する手法を提案する。
また, 評価時間の摂動をさらなる研究の有望な方向として示すとともに, TextFooler によるアクティブアタックにおいて, プレメイド敵に対するベンチマーク性能の最大75%, 最大65% (75% orig. / 12% 攻撃基準から) の精度を回復させる。
関連論文リスト
- Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Robust Textual Embedding against Word-level Adversarial Attacks [15.235449552083043]
我々は、FTML(Fast Triplet Metric Learning)と呼ばれる新しい堅牢なトレーニング手法を提案する。
FTMLは, 様々な先進攻撃に対して, モデルロバスト性を著しく向上させることができることを示す。
我々の研究は、ロバストな単語埋め込みによってテキストの堅牢性を改善する大きな可能性を示している。
論文 参考訳(メタデータ) (2022-02-28T14:25:00Z) - Improving Gradient-based Adversarial Training for Text Classification by
Contrastive Learning and Auto-Encoder [18.375585982984845]
我々は,モデルの訓練過程において,勾配に基づく敵攻撃を防御するモデルの能力の向上に焦点をあてる。
本稿では, CARL と RAR の2つの新しい対戦訓練手法を提案する。
実験により,提案した2つの手法は,テキスト分類データセットにおいて高いベースラインを達成していることが示された。
論文 参考訳(メタデータ) (2021-09-14T09:08:58Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Frequency-Guided Word Substitutions for Detecting Textual Adversarial
Examples [16.460051008283887]
我々は,CNN,LSTM,Transformerに基づく分類モデルに対する敵対攻撃が単語置換を行うことを示す。
本稿では,周波数誘導語置換法(FGWS)を提案する。
FGWS は,SST-2 と IMDb の感情データセット上での逆例を正確に検出することにより,高い性能を実現する。
論文 参考訳(メタデータ) (2020-04-13T12:11:36Z) - Self-Adversarial Learning with Comparative Discrimination for Text
Generation [111.18614166615968]
本稿では,テキスト生成におけるGANの性能向上のための,新たな自己逆学習(SAL)パラダイムを提案する。
トレーニング中、SALは、現在生成された文が以前生成されたサンプルより優れていると判断されたときにジェネレータに報酬を与える。
テキスト生成ベンチマークデータセットの実験により,提案手法は品質と多様性の両方を大幅に改善することが示された。
論文 参考訳(メタデータ) (2020-01-31T07:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。