論文の概要: Adversarial Training with Fast Gradient Projection Method against
Synonym Substitution based Text Attacks
- arxiv url: http://arxiv.org/abs/2008.03709v4
- Date: Wed, 16 Dec 2020 03:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 03:59:10.860444
- Title: Adversarial Training with Fast Gradient Projection Method against
Synonym Substitution based Text Attacks
- Title(参考訳): 同義語置換に基づくテキスト攻撃に対する高速勾配投影法による逆行訓練
- Authors: Xiaosen Wang, Yichen Yang, Yihe Deng, Kun He
- Abstract要約: 同義語置換に基づく高速テキスト逆攻撃法を提案する。
次に、FGPMを対人訓練に組み込んで、対人訓練(ATFL)により強化されたFGPMを用いた対人訓練(Adversarial Training)と呼ばれるテキスト防御手法を提案する。
実験により、ATFLはモデルロバスト性を大幅に改善し、敵の例の伝達性を阻害できることが示された。
- 参考スコア(独自算出の注目度): 15.98179905166959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training is the most empirically successful approach in improving
the robustness of deep neural networks for image classification.For text
classification, however, existing synonym substitution based adversarial
attacks are effective but not efficient to be incorporated into practical text
adversarial training. Gradient-based attacks, which are very efficient for
images, are hard to be implemented for synonym substitution based text attacks
due to the lexical, grammatical and semantic constraints and the discrete text
input space. Thereby, we propose a fast text adversarial attack method called
Fast Gradient Projection Method (FGPM) based on synonym substitution, which is
about 20 times faster than existing text attack methods and could achieve
similar attack performance. We then incorporate FGPM with adversarial training
and propose a text defense method called Adversarial Training with FGPM
enhanced by Logit pairing (ATFL). Experiments show that ATFL could
significantly improve the model robustness and block the transferability of
adversarial examples.
- Abstract(参考訳): 画像分類のための深層ニューラルネットワークのロバスト性向上には, アドバーサリートレーニングが最も成功した手法であるが, 既存の同義語置換型アドバーサリーアタックは有効であるが, 実用的なテキストアドバーサリートレーニングに組み込むには効率的ではない。
画像に対して非常に効率的なグラディエントベースの攻撃は、語彙的、文法的、意味的な制約と離散的なテキスト入力空間のために、同義置換に基づくテキスト攻撃のために実装するのが困難である。
そこで本研究では,従来のテキスト攻撃手法よりも約20倍高速で,同様の攻撃性能が得られるFGPM法を提案する。
次に、FGPMを対人訓練に組み込んで、対人訓練(ATFL)により強化されたFGPMを用いた対人訓練(Adversarial Training)と呼ばれるテキスト防衛手法を提案する。
実験により、ATFLはモデルロバスト性を大幅に改善し、敵の例の伝達性を阻害できることが示された。
関連論文リスト
- MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification [7.136205674624813]
コンピュータビジョン設定では、ノイズ除去処理は入力画像の浄化に有用であることが証明されている。
いくつかの初期の研究は、NLP設定における敵攻撃を緩和するためにランダムノイズ化とデノイズ化の使用について検討している。
我々は拡散過程にインスパイアされた入力浄化テキストの手法を拡張した。
われわれの新しい手法であるMaskPureは、他の現代の防御法と比べて頑丈さを上回ったり、一致させたりします。
論文 参考訳(メタデータ) (2024-06-18T21:27:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Adversarial Text Normalization [2.9434930072968584]
逆テキスト正規化器は、少ない計算オーバーヘッドで攻撃されたコンテンツのベースライン性能を回復する。
テキスト正規化は文字レベルの攻撃に対してタスクに依存しない防御を提供する。
論文 参考訳(メタデータ) (2022-06-08T19:44:03Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Certified Robustness to Text Adversarial Attacks by Randomized [MASK] [39.07743913719665]
入力テキスト中の単語の一定割合をランダムにマスキングすることで,頑健な防御手法を提案する。
提案手法は,単語置換に基づく攻撃だけでなく,文字レベルの摂動も防御できる。
AGNEWSの5ワード、SST2データセットの2ワードの任意の摂動に堅牢であるために、50%以上のテキストの分類を証明できます。
論文 参考訳(メタデータ) (2021-05-08T16:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。