論文の概要: Adversarial Training for Improving Model Robustness? Look at Both
Prediction and Interpretation
- arxiv url: http://arxiv.org/abs/2203.12709v1
- Date: Wed, 23 Mar 2022 20:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:55:26.747016
- Title: Adversarial Training for Improving Model Robustness? Look at Both
Prediction and Interpretation
- Title(参考訳): モデルロバスト性向上のための対人訓練
予測と解釈の両方を見て
- Authors: Hanjie Chen, Yangfeng Ji
- Abstract要約: 本稿では,FLAT という新しい特徴レベルの対角訓練手法を提案する。
FLATは、グローバルな単語の重要性を学ぶために、変分ワードマスクをニューラルネットワークに組み込んでいる。
FLATが予測と解釈の両方において頑健性を向上させる効果を示す実験を行った。
- 参考スコア(独自算出の注目度): 21.594361495948316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural language models show vulnerability to adversarial examples which are
semantically similar to their original counterparts with a few words replaced
by their synonyms. A common way to improve model robustness is adversarial
training which follows two steps-collecting adversarial examples by attacking a
target model, and fine-tuning the model on the augmented dataset with these
adversarial examples. The objective of traditional adversarial training is to
make a model produce the same correct predictions on an original/adversarial
example pair. However, the consistency between model decision-makings on two
similar texts is ignored. We argue that a robust model should behave
consistently on original/adversarial example pairs, that is making the same
predictions (what) based on the same reasons (how) which can be reflected by
consistent interpretations. In this work, we propose a novel feature-level
adversarial training method named FLAT. FLAT aims at improving model robustness
in terms of both predictions and interpretations. FLAT incorporates variational
word masks in neural networks to learn global word importance and play as a
bottleneck teaching the model to make predictions based on important words.
FLAT explicitly shoots at the vulnerability problem caused by the mismatch
between model understandings on the replaced words and their synonyms in
original/adversarial example pairs by regularizing the corresponding global
word importance scores. Experiments show the effectiveness of FLAT in improving
the robustness with respect to both predictions and interpretations of four
neural network models (LSTM, CNN, BERT, and DeBERTa) to two adversarial attacks
on four text classification tasks. The models trained via FLAT also show better
robustness than baseline models on unforeseen adversarial examples across
different attacks.
- Abstract(参考訳): ニューラルネットワークモデルは、元のものと意味的に類似した、いくつかの単語を同義語に置き換えた敵の例に脆弱性を示す。
モデルロバスト性を改善するための一般的な方法は、ターゲットモデルを攻撃することによって2つのステップを組立てた敵の例に従い、これらの敵の例で強化データセット上でモデルを微調整する。
従来の敵訓練の目的は、モデルがオリジナル/敵の例ペアで同じ正しい予測を生成するようにすることである。
しかし、2つの類似したテキストにおけるモデル決定の一貫性は無視される。
我々は、ロバストなモデルは、一貫性のある解釈によって反映できる同じ理由(どのように)に基づいて、同じ予測(何)を行う、原/逆の例対に一貫して振る舞うべきであると論じる。
本研究では,FLAT という新しい特徴レベルの対角訓練手法を提案する。
FLATは、予測と解釈の両方の観点からモデルの堅牢性を改善することを目的としている。
FLATはニューラルネットワークに変分ワードマスクを導入し、グローバルな単語の重要性を学び、重要な単語に基づいて予測を行うモデルを教えるボトルネックとして機能する。
フラットは、置換された単語のモデル理解とそれらのシノニムとのミスマッチによって引き起こされる脆弱性問題を、対応するグローバル単語の重要性スコアを正則化することによって明示的にシュートする。
実験では、4つのテキスト分類タスクに対する2つの敵攻撃に対する4つのニューラルネットワークモデル(LSTM, CNN, BERT, DeBERTa)の予測と解釈の両方に関して、FLATの有効性が示された。
FLATで訓練されたモデルは、異なる攻撃に対する予期せぬ敵の例において、ベースラインモデルよりも堅牢性が高い。
関連論文リスト
- CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Understanding the Logit Distributions of Adversarially-Trained Deep
Neural Networks [6.439477789066243]
敵の防御は、敵の攻撃による入力摂動に不変であるように、ディープニューラルネットワークを訓練する。
敵の攻撃を緩和するためには敵の訓練が成功しているが、敵の訓練を受けた(AT)モデルと標準モデルとの行動的差異はいまだに理解されていない。
対向性学習に不可欠な3つのロジット特性を同定する。
論文 参考訳(メタデータ) (2021-08-26T19:09:15Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。