論文の概要: An Attention Score Based Attacker for Black-box NLP Classifier
- arxiv url: http://arxiv.org/abs/2112.11660v1
- Date: Wed, 22 Dec 2021 04:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 19:33:47.331854
- Title: An Attention Score Based Attacker for Black-box NLP Classifier
- Title(参考訳): ブラックボックスNLP分類器に対するアテンションスコアベースアタック
- Authors: Yueyang Liu, Hunmin Lee, Zhipeng Cai
- Abstract要約: 本稿では,自己認識機構に基づく単語選択手法と,単語置換のための欲求探索アルゴリズムを含む,単語レベルのNLP感情分類器攻撃モデルを提案する。
本モデルでは,単語選択アルゴリズムを用いて単語置換数を最小化することにより,従来の手法よりも高い攻撃成功率と効率を実現している。
- 参考スコア(独自算出の注目度): 5.5247532376616855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have a wide range of applications in solving various
real-world tasks and have achieved satisfactory results, in domains such as
computer vision, image classification, and natural language processing.
Meanwhile, the security and robustness of neural networks have become
imperative, as diverse researches have shown the vulnerable aspects of neural
networks. Case in point, in Natural language processing tasks, the neural
network may be fooled by an attentively modified text, which has a high
similarity to the original one. As per previous research, most of the studies
are focused on the image domain; Different from image adversarial attacks, the
text is represented in a discrete sequence, traditional image attack methods
are not applicable in the NLP field. In this paper, we propose a word-level NLP
sentiment classifier attack model, which includes a self-attention
mechanism-based word selection method and a greedy search algorithm for word
substitution. We experiment with our attack model by attacking GRU and 1D-CNN
victim models on IMDB datasets. Experimental results demonstrate that our model
achieves a higher attack success rate and more efficient than previous methods
due to the efficient word selection algorithms are employed and minimized the
word substitute number. Also, our model is transferable, which can be used in
the image domain with several modifications.
- Abstract(参考訳): ディープニューラルネットワークは、様々な現実世界のタスクを解くための幅広い応用があり、コンピュータビジョン、画像分類、自然言語処理などの領域で満足な結果を得た。
一方で、ニューラルネットワークのセキュリティと堅牢性は、さまざまな研究がニューラルネットワークの脆弱な側面を示しているため、必須となっている。
この場合、自然言語処理タスクでは、ニューラルネットワークは注意的に修正されたテキストによって騙される可能性がある。
前回の研究では、ほとんどの研究は画像領域に焦点を当てており、画像敵対攻撃とは異なり、テキストは離散シーケンスで表現されるが、従来の画像攻撃法はNLPフィールドには適用されない。
本稿では,自己認識機構に基づく単語選択法と,単語置換のための欲求探索アルゴリズムを含む,単語レベルのNLP感情分類器攻撃モデルを提案する。
我々は,IMDBデータセット上でGRUと1D-CNNの被害者モデルを攻撃し,攻撃モデルを実験した。
実験の結果, 単語選択アルゴリズムの効率が向上し, 単語置換数が最小化され, 攻撃成功率が高く, 従来手法よりも効率的であることが判明した。
また、我々のモデルは転送可能であり、いくつかの変更を加えて画像領域で使用することができる。
関連論文リスト
- AICAttack: Adversarial Image Captioning Attack with Attention-Based
Optimization [13.99541041673674]
我々は,AICAttackと呼ばれる新たな敵攻撃戦略を提示する。
ブラックボックス攻撃シナリオ内で動作するため、我々のアルゴリズムはターゲットモデルのアーキテクチャ、パラメータ、勾配情報へのアクセスを必要としない。
複数の犠牲者モデルを用いたベンチマークデータセットの広範な実験により,AICAttackの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-19T08:27:23Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - BreakingBED -- Breaking Binary and Efficient Deep Neural Networks by
Adversarial Attacks [65.2021953284622]
CNNのホワイトボックス攻撃やブラックボックス攻撃に対する堅牢性について検討する。
結果は、蒸留されたCNN、エージェントベースの最新のprunedモデル、およびバイナライズニューラルネットワークのために示されています。
論文 参考訳(メタデータ) (2021-03-14T20:43:19Z) - Cross-modal Adversarial Reprogramming [12.467311480726702]
近年の逆転プログラミングの研究では、ネットワークアーキテクチャやパラメータを変更することなく、代替タスクのためにニューラルネットワークを再利用できることが示されている。
自然言語処理(NLP)やその他のシーケンス分類タスクのための画像分類ニューラルネットワークを逆転的に再検討する可能性を分析します。
論文 参考訳(メタデータ) (2021-02-15T03:46:16Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Effect of Word Embedding Models on Hate and Offensive Speech Detection [1.7403133838762446]
単語埋め込みモデルとニューラルネットワークアーキテクチャの両方が予測精度に与える影響について検討する。
まず、大規模なアラビア文字コーパスに複数の単語埋め込みモデルを訓練する。
検出タスク毎に、事前学習された単語埋め込みモデルを用いて、ニューラルネットワーク分類器を訓練する。
このタスクは多数の学習モデルをもたらし、徹底的な比較を可能にする。
論文 参考訳(メタデータ) (2020-11-23T02:43:45Z) - MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。
提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文 参考訳(メタデータ) (2020-10-25T23:01:13Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - Defense of Word-level Adversarial Attacks via Random Substitution
Encoding [0.5964792400314836]
コンピュータビジョンタスクにおけるディープニューラルネットワークに対する敵対的な攻撃は、モデルを保護するための多くの新しい技術を生み出しました。
近年、自然言語処理(NLP)タスクの深層モデルに対する単語レベルの敵対攻撃は、例えば、感情分類ニューラルネットワークを騙して誤った判断を下すなど、強力な力を示している。
本稿ではランダム置換(Random Substitution RSE)という,ニューラルネットワークのトレーニングプロセスにランダム置換を導入する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-01T15:28:43Z) - Verification of Deep Convolutional Neural Networks Using ImageStars [10.44732293654293]
畳み込みニューラルネットワーク(CNN)は、多くの現実世界で最先端のアプリケーションを再定義している。
CNNは敵の攻撃に対して脆弱であり、入力のわずかな変更は出力の急激な変更につながる可能性がある。
本稿では,VGG16やVGG19などの実世界のCNNを,ImageNet上で高い精度で処理可能なセットベースフレームワークについて述べる。
論文 参考訳(メタデータ) (2020-04-12T00:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。