論文の概要: Enhancing Adversarial Text Attacks on BERT Models with Projected Gradient Descent
- arxiv url: http://arxiv.org/abs/2407.21073v1
- Date: Mon, 29 Jul 2024 09:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:35:32.261133
- Title: Enhancing Adversarial Text Attacks on BERT Models with Projected Gradient Descent
- Title(参考訳): 予測勾配DescentによるBERTモデルにおける逆テキストアタックの強化
- Authors: Hetvi Waghela, Jaydip Sen, Sneha Rakshit,
- Abstract要約: ディープラーニングモデルに対するアドリアック攻撃は、自然言語処理システムのセキュリティと信頼性に対する大きな脅威である。
本稿では,BERT-Attackフレームワークを改良し,PGD(Projected Gradient Descent)を統合し,その有効性と堅牢性を高めることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks against deep learning models represent a major threat to the security and reliability of natural language processing (NLP) systems. In this paper, we propose a modification to the BERT-Attack framework, integrating Projected Gradient Descent (PGD) to enhance its effectiveness and robustness. The original BERT-Attack, designed for generating adversarial examples against BERT-based models, suffers from limitations such as a fixed perturbation budget and a lack of consideration for semantic similarity. The proposed approach in this work, PGD-BERT-Attack, addresses these limitations by leveraging PGD to iteratively generate adversarial examples while ensuring both imperceptibility and semantic similarity to the original input. Extensive experiments are conducted to evaluate the performance of PGD-BERT-Attack compared to the original BERT-Attack and other baseline methods. The results demonstrate that PGD-BERT-Attack achieves higher success rates in causing misclassification while maintaining low perceptual changes. Furthermore, PGD-BERT-Attack produces adversarial instances that exhibit greater semantic resemblance to the initial input, enhancing their applicability in real-world scenarios. Overall, the proposed modification offers a more effective and robust approach to adversarial attacks on BERT-based models, thus contributing to the advancement of defense against attacks on NLP systems.
- Abstract(参考訳): ディープラーニングモデルに対する敵対的攻撃は、自然言語処理(NLP)システムのセキュリティと信頼性に対する大きな脅威である。
本稿では,BERT-Attackフレームワークを改良し,PGD(Projected Gradient Descent)を統合し,その有効性とロバスト性を向上させる。
BERT-Attackは、BERTベースのモデルに対して敵対的な例を生成するために設計されたもので、固定された摂動予算や意味的類似性に対する考慮の欠如のような制限に悩まされている。
本研究で提案されるアプローチであるPGD-BERT-Attackは、PGDを利用して逆例を反復的に生成し、本来の入力と意味的類似性を確保しながら、これらの制限に対処する。
PGD-BERT-Attackおよび他のベースライン法と比較して,PGD-BERT-Attackの性能を評価するために大規模な実験を行った。
その結果,PGD-BERT-Attackは,低知覚的変化を維持しつつ,誤分類を生じさせることで高い成功率が得られることが示された。
さらに、PGD-BERT-Attackは、初期入力とのセマンティックな類似性を示す敵インスタンスを生成し、現実のシナリオにおけるそれらの適用性を高める。
全体として、提案された修正は、BERTベースのモデルに対する敵攻撃に対してより効果的で堅牢なアプローチを提供し、それによってNLPシステムに対する攻撃に対する防御の進歩に寄与する。
関連論文リスト
- The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Improving Adversarial Training using Vulnerability-Aware Perturbation
Budget [7.430861908931903]
敵対的訓練(AT)は、敵対的攻撃に対するディープニューラルネットワーク(DNN)の堅牢性を効果的に改善する。
本稿では,AT の逆例に摂動境界を割り当てる簡易で安価な脆弱性認識型再重み付け関数を提案する。
実験の結果,提案手法は様々な攻撃に対してATアルゴリズムの頑健さを真に向上させることがわかった。
論文 参考訳(メタデータ) (2024-03-06T21:50:52Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。