論文の概要: Defensive Dual Masking for Robust Adversarial Defense
- arxiv url: http://arxiv.org/abs/2412.07078v1
- Date: Tue, 10 Dec 2024 00:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:19.174063
- Title: Defensive Dual Masking for Robust Adversarial Defense
- Title(参考訳): 対人防御における防御的デュアルマスキング
- Authors: Wangli Yang, Jie Yang, Yi Guo, Johan Barthelemy,
- Abstract要約: 本稿では,このような攻撃に対するモデルロバスト性を高めるための新しいアプローチであるDDMアルゴリズムを提案する。
DDMは, [MASK]トークンをトレーニングサンプルに戦略的に挿入し, 対向的摂動をより効果的に扱うためのモデルを作成する, 独自の対向的トレーニング戦略を採用している。
推論中、潜在的な敵トークンは、入力のコアセマンティクスを保持しながら潜在的な脅威を中和するために、動的に[MASK]トークンに置き換えられる。
- 参考スコア(独自算出の注目度): 5.932787778915417
- License:
- Abstract: The field of textual adversarial defenses has gained considerable attention in recent years due to the increasing vulnerability of natural language processing (NLP) models to adversarial attacks, which exploit subtle perturbations in input text to deceive models. This paper introduces the Defensive Dual Masking (DDM) algorithm, a novel approach designed to enhance model robustness against such attacks. DDM utilizes a unique adversarial training strategy where [MASK] tokens are strategically inserted into training samples to prepare the model to handle adversarial perturbations more effectively. During inference, potentially adversarial tokens are dynamically replaced with [MASK] tokens to neutralize potential threats while preserving the core semantics of the input. The theoretical foundation of our approach is explored, demonstrating how the selective masking mechanism strengthens the model's ability to identify and mitigate adversarial manipulations. Our empirical evaluation across a diverse set of benchmark datasets and attack mechanisms consistently shows that DDM outperforms state-of-the-art defense techniques, improving model accuracy and robustness. Moreover, when applied to Large Language Models (LLMs), DDM also enhances their resilience to adversarial attacks, providing a scalable defense mechanism for large-scale NLP applications.
- Abstract(参考訳): 近年では、入力テキストの微妙な摂動を利用してモデルを騙す自然言語処理(NLP)モデルの攻撃に対する脆弱性の増大により、テキストの敵防衛の分野が注目されている。
本稿では,このような攻撃に対するモデルロバスト性を高めるための新しいアプローチであるDDMアルゴリズムを提案する。
DDMは, [MASK]トークンをトレーニングサンプルに戦略的に挿入し, 対向的摂動をより効果的に扱うためのモデルを作成する, 独自の対向的トレーニング戦略を採用している。
推論中、潜在的な敵トークンは、入力のコアセマンティクスを保持しながら潜在的な脅威を中和するために、動的に[MASK]トークンに置き換えられる。
提案手法の理論的基礎は,選択的マスキング機構が,敵の操作を識別・緩和するモデルの能力をいかに強化するかを示すものである。
多様なベンチマークデータセットとアタックメカニズムを比較検討した結果、DDMは最先端の防御技術より優れ、モデルの精度と堅牢性が向上していることがわかった。
さらに、LLM(Large Language Models)に適用すると、DDMは敵攻撃に対するレジリエンスを高め、大規模NLPアプリケーションのためのスケーラブルな防御メカニズムを提供する。
関連論文リスト
- Protecting Feed-Forward Networks from Adversarial Attacks Using Predictive Coding [0.20718016474717196]
逆の例は、機械学習(ML)モデルが誤りを犯すように設計された、修正された入力イメージである。
本研究では,敵防衛のための補助的なステップとして,予測符号化ネットワーク(PCnet)を用いた実用的で効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T21:38:05Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Improving the Robustness of Transformer-based Large Language Models with
Dynamic Attention [43.95101492654236]
BERTやGPTといったトランスフォーマーベースのモデルは、自然言語処理(NLP)において広く採用されている。
近年の研究では、テキスト入力を意図的に操作することで、モデルの出力を誤認できるような、テキストの敵対攻撃に対する脆弱性が示されている。
本稿では,トランスアーキテクチャに適した動的アテンション(動的アテンション)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:09:13Z) - A Prompting-based Approach for Adversarial Example Generation and
Robustness Enhancement [18.532308729844598]
我々は,NLPモデルに侵入する新たなプロンプトベースの敵攻撃を提案する。
悪質な目的によってマスク・アンド・フィリングによって敵の例を生成する。
本手法は, 逆方向のサンプルを生成するのではなく, 大規模トレーニングセットに効率的に適用することができる。
論文 参考訳(メタデータ) (2022-03-21T03:21:32Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Stochastic Security: Adversarial Defense Using Long-Run Dynamics of
Energy-Based Models [82.03536496686763]
敵対的攻撃に対するディープ・ネットワークの脆弱性は、認識とセキュリティの両方の観点から、ディープ・ラーニングの中心的な問題である。
我々は,自然学習型分類器の保護に重点を置き,マルコフ・チェイン・モンテカルロ (MCMC) とエネルギーベースモデル (EBM) を併用して敵の浄化を行った。
本研究は,1)現実的な長期MCMCサンプルを用いたEMMの訓練方法の改善,2)防衛の理論的曖昧さを解消する期待・オフバー・トランスフォーメーション(EOT)ディフェンス,3)自然に訓練された分類器と競争的ディフェンスのための最先端の対人ディフェンス,である。
論文 参考訳(メタデータ) (2020-05-27T17:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。