論文の概要: In and Out-of-Domain Text Adversarial Robustness via Label Smoothing
- arxiv url: http://arxiv.org/abs/2212.10258v2
- Date: Tue, 11 Jul 2023 19:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 19:56:08.462317
- Title: In and Out-of-Domain Text Adversarial Robustness via Label Smoothing
- Title(参考訳): ラベル平滑化によるドメイン内およびドメイン外テキスト競合ロバスト性
- Authors: Yahan Yang, Soham Dan, Dan Roth, Insup Lee
- Abstract要約: 多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
- 参考スコア(独自算出の注目度): 64.66809713499576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently it has been shown that state-of-the-art NLP models are vulnerable to
adversarial attacks, where the predictions of a model can be drastically
altered by slight modifications to the input (such as synonym substitutions).
While several defense techniques have been proposed, and adapted, to the
discrete nature of text adversarial attacks, the benefits of general-purpose
regularization methods such as label smoothing for language models, have not
been studied. In this paper, we study the adversarial robustness provided by
various label smoothing strategies in foundational models for diverse NLP tasks
in both in-domain and out-of-domain settings. Our experiments show that label
smoothing significantly improves adversarial robustness in pre-trained models
like BERT, against various popular attacks. We also analyze the relationship
between prediction confidence and robustness, showing that label smoothing
reduces over-confident errors on adversarial examples.
- Abstract(参考訳): 近年、最先端のNLPモデルは敵攻撃に弱いことが示されており、モデルの予測は入力へのわずかな変更(シノニム置換など)によって劇的に変更可能である。
テキスト敵攻撃の個別性に対して,いくつかの防御手法が提案され,適用されてきたが,言語モデルに対するラベルスムーシングなどの汎用正規化手法の利点は研究されていない。
本稿では,ドメイン内およびドメイン外の両方における多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的堅牢性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対する対向的堅牢性を著しく向上することが示された。
また,予測信頼度とロバスト性との関係を解析し,ラベル平滑化が敵対例の信頼度過大な誤りを減少させることを示した。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Advancing Adversarial Robustness Through Adversarial Logit Update [10.041289551532804]
敵の訓練と敵の浄化は最も広く認知されている防衛戦略の一つである。
そこで本稿では,新たな原則であるALU(Adversarial Logit Update)を提案する。
本手法は,幅広い敵攻撃に対する最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-29T07:13:31Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Detecting Word Sense Disambiguation Biases in Machine Translation for
Model-Agnostic Adversarial Attacks [84.61578555312288]
本稿では,統計的データ特性に基づく曖昧な誤りの予測手法を提案する。
我々は,曖昧な誤りを生じさせるため,文の摂動を最小限に抑える,単純な敵攻撃戦略を開発する。
以上の結果から,曖昧さの堅牢性はドメイン間で大きく異なり,同一データ上でトレーニングされた異なるモデルが異なる攻撃に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2020-11-03T17:01:44Z) - CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial
Text Generation [20.27052525082402]
本稿では,制御可能な属性による逆テキストを生成する制御付き逆テキスト生成(CAT-Gen)モデルを提案する。
実世界のNLPデータセットを用いた実験により,本手法はより多種多様な逆数文を生成することができることが示された。
論文 参考訳(メタデータ) (2020-10-05T21:07:45Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。