論文の概要: Second-Order NLP Adversarial Examples
- arxiv url: http://arxiv.org/abs/2010.01770v2
- Date: Tue, 6 Oct 2020 01:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:22:55.514260
- Title: Second-Order NLP Adversarial Examples
- Title(参考訳): 2次NLP逆数例
- Authors: John X. Morris
- Abstract要約: 適応例生成法は言語モデルや文エンコーダのようなモデルに頼り、潜在的な敵対例が有効かどうかを判断する。
これらの方法では、有効な敵の例は攻撃されているモデルを騙し、セマンティックまたは構文的に第2のモデルによって有効であると判断される。
これらの逆例は攻撃されたモデルにおける欠陥ではなく、有効性を決定するモデルにおける欠陥である、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.18855270809505867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial example generation methods in NLP rely on models like language
models or sentence encoders to determine if potential adversarial examples are
valid. In these methods, a valid adversarial example fools the model being
attacked, and is determined to be semantically or syntactically valid by a
second model. Research to date has counted all such examples as errors by the
attacked model. We contend that these adversarial examples may not be flaws in
the attacked model, but flaws in the model that determines validity. We term
such invalid inputs second-order adversarial examples. We propose the
constraint robustness curve and associated metric ACCS as tools for evaluating
the robustness of a constraint to second-order adversarial examples. To
generate this curve, we design an adversarial attack to run directly on the
semantic similarity models. We test on two constraints, the Universal Sentence
Encoder (USE) and BERTScore. Our findings indicate that such second-order
examples exist, but are typically less common than first-order adversarial
examples in state-of-the-art models. They also indicate that USE is effective
as constraint on NLP adversarial examples, while BERTScore is nearly
ineffectual. Code for running the experiments in this paper is available at
https://github.com/jxmorris12/second-order-adversarial-examples.
- Abstract(参考訳): NLPの逆例生成法は、言語モデルや文エンコーダのようなモデルに依存して、潜在的な逆例が有効かどうかを決定する。
これらの方法では、有効な敵の例は攻撃されているモデルを騙し、セマンティックまたは構文的に第2のモデルによって有効であると判断される。
これまでの研究は、攻撃されたモデルによるエラーなど、すべての例を数えてきた。
これらの逆例は攻撃されたモデルにおける欠陥ではなく、妥当性を決定するモデルにおける欠陥であると主張する。
そのような無効な入力を二階逆例と呼ぶ。
本稿では,制約の頑健性を評価するツールとして,制約頑健性曲線と関連する計量ACCSを提案する。
この曲線を生成するために,意味的類似性モデル上で直接動作する敵攻撃を設計する。
我々はユニバーサル文エンコーダ(use)とbertscoreという2つの制約をテストした。
以上の結果から,第2次例は存在するが,通常,最先端のモデルでは第1次逆の例ほど一般的ではないことが示された。
また, BERTScore は非効率であるのに対して, USE はNLP の逆例の制約として有効であることを示す。
この論文で実験を行うためのコードはhttps://github.com/jxmorris12/second-order-adversarial-examplesにある。
関連論文リスト
- A Constraint-Enforcing Reward for Adversarial Attacks on Text Classifiers [10.063169009242682]
逆例を生成するために,エンコーダ-デコーダパラフレーズモデルを訓練する。
我々は強化学習アルゴリズムを採用し、制約付き報酬を提案する。
提案手法の主な設計選択が生成した例にどのように影響するかを示し,提案手法の長所と短所について議論する。
論文 参考訳(メタデータ) (2024-05-20T09:33:43Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Latent Feature Relation Consistency for Adversarial Robustness [80.24334635105829]
深層ニューラルネットワークは、人間の知覚できない敵のノイズを自然の例に付加する敵の例を予測するときに、誤分類が起こる。
textbfLatent textbfFeature textbfRelation textbfConsistency (textbfLFRC)を提案する。
LFRCは、潜在空間における逆例の関係を、自然例と整合性に制約する。
論文 参考訳(メタデータ) (2023-03-29T13:50:01Z) - On the Effect of Adversarial Training Against Invariance-based
Adversarial Examples [0.23624125155742057]
この研究は、畳み込みニューラルネットワーク(CNN)における不変性に基づく逆トレーニングの効果に対処する。
本研究は,非分散型および摂動型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型を適用した場合,連続的でなく連続的に実施すべきであることを示す。
論文 参考訳(メタデータ) (2023-02-16T12:35:37Z) - Unrestricted Adversarial Samples Based on Non-semantic Feature Clusters
Substitution [1.8782750537161608]
モデルトレーニングで学習した突発的関係を利用して, 対向的なサンプルを生成する「制限なし」摂動を導入する。
具体的には,モデル判定結果と強く相関する非意味的特徴に特徴クラスタが存在する。
対象画像の対応する特徴クラスタを置き換えるために,それらを用いて対向サンプルを作成する。
論文 参考訳(メタデータ) (2022-08-31T07:42:36Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z) - Generating Natural Adversarial Hyperspectral examples with a modified
Wasserstein GAN [0.0]
本稿では,第2パラダイムに従う真のデータから,自然な逆例を生成できる新しい手法を提案する。
リモートセンシングデータセット上で逆スペクトル超スペクトルシグネチャを生成することによって,本手法の概念実証を行う。
論文 参考訳(メタデータ) (2020-01-27T07:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。