論文の概要: An Attention Score Based Attacker for Black-box NLP Classifier
- arxiv url: http://arxiv.org/abs/2112.11660v1
- Date: Wed, 22 Dec 2021 04:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 19:33:47.331854
- Title: An Attention Score Based Attacker for Black-box NLP Classifier
- Title(参考訳): ブラックボックスNLP分類器に対するアテンションスコアベースアタック
- Authors: Yueyang Liu, Hunmin Lee, Zhipeng Cai
- Abstract要約: 本稿では,自己認識機構に基づく単語選択手法と,単語置換のための欲求探索アルゴリズムを含む,単語レベルのNLP感情分類器攻撃モデルを提案する。
本モデルでは,単語選択アルゴリズムを用いて単語置換数を最小化することにより,従来の手法よりも高い攻撃成功率と効率を実現している。
- 参考スコア(独自算出の注目度): 5.5247532376616855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have a wide range of applications in solving various
real-world tasks and have achieved satisfactory results, in domains such as
computer vision, image classification, and natural language processing.
Meanwhile, the security and robustness of neural networks have become
imperative, as diverse researches have shown the vulnerable aspects of neural
networks. Case in point, in Natural language processing tasks, the neural
network may be fooled by an attentively modified text, which has a high
similarity to the original one. As per previous research, most of the studies
are focused on the image domain; Different from image adversarial attacks, the
text is represented in a discrete sequence, traditional image attack methods
are not applicable in the NLP field. In this paper, we propose a word-level NLP
sentiment classifier attack model, which includes a self-attention
mechanism-based word selection method and a greedy search algorithm for word
substitution. We experiment with our attack model by attacking GRU and 1D-CNN
victim models on IMDB datasets. Experimental results demonstrate that our model
achieves a higher attack success rate and more efficient than previous methods
due to the efficient word selection algorithms are employed and minimized the
word substitute number. Also, our model is transferable, which can be used in
the image domain with several modifications.
- Abstract(参考訳): ディープニューラルネットワークは、様々な現実世界のタスクを解くための幅広い応用があり、コンピュータビジョン、画像分類、自然言語処理などの領域で満足な結果を得た。
一方で、ニューラルネットワークのセキュリティと堅牢性は、さまざまな研究がニューラルネットワークの脆弱な側面を示しているため、必須となっている。
この場合、自然言語処理タスクでは、ニューラルネットワークは注意的に修正されたテキストによって騙される可能性がある。
前回の研究では、ほとんどの研究は画像領域に焦点を当てており、画像敵対攻撃とは異なり、テキストは離散シーケンスで表現されるが、従来の画像攻撃法はNLPフィールドには適用されない。
本稿では,自己認識機構に基づく単語選択法と,単語置換のための欲求探索アルゴリズムを含む,単語レベルのNLP感情分類器攻撃モデルを提案する。
我々は,IMDBデータセット上でGRUと1D-CNNの被害者モデルを攻撃し,攻撃モデルを実験した。
実験の結果, 単語選択アルゴリズムの効率が向上し, 単語置換数が最小化され, 攻撃成功率が高く, 従来手法よりも効率的であることが判明した。
また、我々のモデルは転送可能であり、いくつかの変更を加えて画像領域で使用することができる。
関連論文リスト
- Securing Graph Neural Networks in MLaaS: A Comprehensive Realization of Query-based Integrity Verification [68.86863899919358]
我々は機械学習におけるGNNモデルをモデル中心の攻撃から保護するための画期的なアプローチを導入する。
提案手法は,GNNの完全性に対する包括的検証スキーマを含み,トランスダクティブとインダクティブGNNの両方を考慮している。
本稿では,革新的なノード指紋生成アルゴリズムを組み込んだクエリベースの検証手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T03:17:05Z) - KNOW How to Make Up Your Mind! Adversarially Detecting and Alleviating
Inconsistencies in Natural Language Explanations [52.33256203018764]
不整合性NLEを検出するために既存の敵攻撃を大幅に改善するために,外部知識ベースを活用する。
高いNLE品質のモデルが必ずしも矛盾を生じさせるとは限らないことを示す。
論文 参考訳(メタデータ) (2023-06-05T15:51:58Z) - gRoMA: a Tool for Measuring the Global Robustness of Deep Neural
Networks [3.2228025627337864]
ディープニューラルネットワーク(DNN)は最先端技術の最前線にあり、さまざまな複雑なタスクにおいて顕著なパフォーマンスを実現している。
航空宇宙分野や自動車分野などの安全クリティカルシステムへの統合は、敵の入力の脅威のために大きな課題となる。
本稿では,DNNのグローバルな分類的ロバスト性を測定するための確率論的アプローチを実装した,革新的でスケーラブルなツールであるgRoMAを紹介する。
論文 参考訳(メタデータ) (2023-01-05T20:45:23Z) - Improving Interpretability via Regularization of Neural Activation
Sensitivity [20.407987149443997]
最先端のディープニューラルネットワーク(DNN)は多くの現実世界のタスクに取り組むのに非常に効果的である。
彼らは敵対的な攻撃を受けやすく、その不透明さはユーザーのアウトプットに対する信頼を損なう。
ニューラルアクティベーション感度の正規化に基づくDNNの解釈性向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T05:40:29Z) - Robust and Lossless Fingerprinting of Deep Neural Networks via Pooled
Membership Inference [17.881686153284267]
ディープニューラルネットワーク(DNN)は、すでに多くのアプリケーション分野で大きな成功を収めており、私たちの社会に大きな変化をもたらしています。
DNNの知的財産権(IP)を侵害から保護する方法は、最も重要かつ非常に困難なトピックの1つである。
本稿では,DNNモデルのIPを保護するために,Emphpooled Memberation Inference (PMI) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-09T04:06:29Z) - Improved and Interpretable Defense to Transferred Adversarial Examples
by Jacobian Norm with Selective Input Gradient Regularization [31.516568778193157]
ディープニューラルネットワーク(DNN)の堅牢性を改善するために、AT(Adversarial Training)がよく用いられる。
本研究では,ジャコビアンノルムと選択的入力勾配正規化(J-SIGR)に基づくアプローチを提案する。
実験により、提案したJ-SIGRは、転送された敵攻撃に対するロバスト性を向上し、ニューラルネットワークからの予測が容易に解釈できることが示されている。
論文 参考訳(メタデータ) (2022-07-09T01:06:41Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - On the benefits of robust models in modulation recognition [53.391095789289736]
畳み込み層を用いたディープニューラルネットワーク(DNN)は、通信における多くのタスクにおいて最先端である。
画像分類のような他の領域では、DNNは敵の摂動に弱いことが示されている。
最新モデルの堅牢性をテストするための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-27T19:58:06Z) - Towards Robust Neural Networks via Orthogonal Diversity [30.77473391842894]
敵の訓練とその変種に代表される一連の手法は、ディープニューラルネットワークの堅牢性を高める最も効果的な手法の1つとして証明されている。
本稿では, 多様な入力に適応する特徴を学習するために, モデルの拡張を目的とした新しい防御手法を提案する。
このようにして、提案したDIOは、これらの相互直交経路によって学習された特徴を補正できるため、モデルを強化し、DNN自体の堅牢性を高める。
論文 参考訳(メタデータ) (2020-10-23T06:40:56Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。