論文の概要: Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework
- arxiv url: http://arxiv.org/abs/2110.15317v4
- Date: Thu, 8 Jun 2023 02:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 22:37:50.409205
- Title: Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework
- Title(参考訳): CVとNLPの間を橋渡し!
グラデーションに基づくテキスト・アドバーサル・アタック・フレームワーク
- Authors: Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei
- Abstract要約: そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
- 参考スコア(独自算出の注目度): 17.17479625646699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent success on various tasks, deep learning techniques still
perform poorly on adversarial examples with small perturbations. While
optimization-based methods for adversarial attacks are well-explored in the
field of computer vision, it is impractical to directly apply them in natural
language processing due to the discrete nature of the text. To address the
problem, we propose a unified framework to extend the existing
optimization-based adversarial attack methods in the vision domain to craft
textual adversarial samples. In this framework, continuously optimized
perturbations are added to the embedding layer and amplified in the forward
propagation process. Then the final perturbed latent representations are
decoded with a masked language model head to obtain potential adversarial
samples. In this paper, we instantiate our framework with an attack algorithm
named Textual Projected Gradient Descent (T-PGD). We find our algorithm
effective even using proxy gradient information. Therefore, we perform the more
challenging transfer black-box attack and conduct comprehensive experiments to
evaluate our attack algorithm with several models on three benchmark datasets.
Experimental results demonstrate that our method achieves overall better
performance and produces more fluent and grammatical adversarial samples
compared to strong baseline methods. The code and data are available at
\url{https://github.com/Phantivia/T-PGD}.
- Abstract(参考訳): 近年は様々なタスクで成功したが、深い学習技術は小さな摂動を伴う敵の例では依然として不十分である。
敵対的攻撃に対する最適化に基づく手法はコンピュータビジョンの分野ではよく研究されているが、テキストの離散的な性質から自然言語処理にそれらを直接適用することは現実的ではない。
この問題に対処するため,視覚領域における既存の最適化に基づく敵攻撃手法を拡張し,テキスト対逆サンプルを作成する統一フレームワークを提案する。
このフレームワークでは、連続的に最適化された摂動を埋め込み層に追加し、前方伝播プロセスで増幅する。
そして、最後の摂動潜在表現をマスク付き言語モデルヘッドで復号し、潜在的対向サンプルを得る。
本稿では,このフレームワークをtextual projected gradient descent (t-pgd) という攻撃アルゴリズムでインスタンス化する。
我々は,プロキシ勾配情報を用いたアルゴリズムの有効性を見出した。
したがって、より困難な転送ブラックボックス攻撃を行い、3つのベンチマークデータセット上で複数のモデルを用いて攻撃アルゴリズムを評価するための包括的な実験を行う。
実験結果から,本手法は全体的に優れた性能を実現し,強いベースライン法と比較して,より流動的で文法的な逆サンプルを生成することが示された。
コードとデータは \url{https://github.com/phantivia/t-pgd} で入手できる。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - SemRoDe: Macro Adversarial Training to Learn Representations That are Robust to Word-Level Attacks [29.942001958562567]
本稿では,セマンティック・ロバスト・ディフェンス(Semantic Robust Defence, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス)
この2つの領域を橋渡しする頑健な表現を学習する。
結果は、最先端の堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-27T10:24:25Z) - AICAttack: Adversarial Image Captioning Attack with Attention-Based Optimization [13.045125782574306]
本稿では,画像上の微妙な摂動によって画像キャプションモデルを攻撃する新たな攻撃戦略であるAICAttackを提案する。
ブラックボックス攻撃シナリオ内で動作するため、我々のアルゴリズムはターゲットモデルのアーキテクチャ、パラメータ、勾配情報へのアクセスを必要としない。
複数の犠牲者モデルに対するベンチマークデータセットの広範な実験を通じて,AICAttackの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-19T08:27:23Z) - GE-AdvGAN: Improving the transferability of adversarial samples by
gradient editing-based adversarial generative model [69.71629949747884]
GAN(Generative Adversarial Networks)のような逆生成モデルは、様々な種類のデータを生成するために広く応用されている。
本研究では, GE-AdvGAN という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-11T16:43:16Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。