論文の概要: Reactive Perturbation Defocusing for Textual Adversarial Defense
- arxiv url: http://arxiv.org/abs/2305.04067v1
- Date: Sat, 6 May 2023 15:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 17:47:07.383052
- Title: Reactive Perturbation Defocusing for Textual Adversarial Defense
- Title(参考訳): テキスト対向防御のための反応性摂動
- Authors: Heng Yang, Ke Li
- Abstract要約: 本稿では、RPD(Reactive Perturbation Defocusing)と呼ばれる手法を提案する。
RPDは、敵の例を特定し、自然の例に対する偽の防御を減らすために、敵の検出器を使用する。
実験の結果,提案手法は正反対例の約97%を修復できることがわかった。
- 参考スコア(独自算出の注目度): 12.772780082672316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that large pre-trained language models are
vulnerable to adversarial attacks. Existing methods attempt to reconstruct the
adversarial examples. However, these methods usually have limited performance
in defense against adversarial examples, while also negatively impacting the
performance on natural examples. To overcome this problem, we propose a method
called Reactive Perturbation Defocusing (RPD). RPD uses an adversarial detector
to identify adversarial examples and reduce false defenses on natural examples.
Instead of reconstructing the adversaries, RPD injects safe perturbations into
adversarial examples to distract the objective models from the malicious
perturbations. Our experiments on three datasets, two objective models, and
various adversarial attacks show that our proposed framework successfully
repairs up to approximately 97% of correctly identified adversarial examples
with only about a 2% performance decrease on natural examples. We also provide
a demo of adversarial detection and repair based on our work.
- Abstract(参考訳): 近年の研究では、大規模な事前学習言語モデルが敵の攻撃に弱いことが示されている。
既存の手法は敵の例を再構築しようとする。
しかし、これらの手法は通常、敵対的な例に対する防御性能に制限があり、また自然例の性能に悪影響を及ぼす。
この問題を克服するため,我々はrpd(reactive perturbation defocusing)と呼ばれる手法を提案する。
RPDは、敵の例を特定し、自然の例に対する偽の防御を減らすために、敵の検出器を使用する。
敵を再構築する代わりに、RDDは敵の例に安全な摂動を注入し、標的モデルを悪意のある摂動から遠ざける。
提案手法は,3つのデータセット,2つの対象モデル,および種々の敵攻撃に対する実験により,同定された敵例の約97%の修復に成功し,自然例では約2%の性能低下を示した。
また,本研究に基づく敵検出と修復のデモも提供する。
関連論文リスト
- MPAT: Building Robust Deep Neural Networks against Textual Adversarial
Attacks [4.208423642716679]
本稿では,敵対的攻撃に対する堅牢な深層ニューラルネットワーク構築のための悪質な摂動に基づく敵対的訓練法を提案する。
具体的には、悪意のある摂動を伴う敵例を生成するために、多段階の悪意のあるサンプル生成戦略を構築する。
本研究では, 目標達成のために, 目標達成のための新たな訓練目標関数を, 本来のタスクの性能を損なうことなく採用する。
論文 参考訳(メタデータ) (2024-02-29T01:49:18Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Adversarial Defense for Automatic Speaker Verification by
Self-Supervised Learning [101.42920161993455]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Direction-Aggregated Attack for Transferable Adversarial Examples [10.208465711975242]
深層ニューラルネットワークは、入力に知覚不可能な変化を課すことによって作られる敵の例に弱い。
逆例は、モデルとそのパラメータが利用可能なホワイトボックス設定で最も成功した。
我々は,移動可能な攻撃事例を提供する方向集約型攻撃を提案する。
論文 参考訳(メタデータ) (2021-04-19T09:54:56Z) - Generating Unrestricted Adversarial Examples via Three Parameters [11.325135016306165]
提案された敵対攻撃は、限られたパラメータ数を持つ無制限の敵対的例を生成する。
MNISTとSVHNデータセットの人間による評価で平均的な成功率は93.5%である。
また、モデル精度を6つのデータセットで平均73%削減します。
論文 参考訳(メタデータ) (2021-03-13T07:20:14Z) - Learning Defense Transformers for Counterattacking Adversarial Examples [43.59730044883175]
ディープニューラルネットワーク(DNN)は、小さな摂動を伴う逆例に対して脆弱である。
既存の防御メソッドは、特定のタイプの敵の例に焦点を当てており、現実世界のアプリケーションでは防御に失敗する可能性がある。
敵対例を元のクリーンな分布に戻すことで、敵対例に対して防御できるかどうかという新たな視点から、敵対例を研究します。
論文 参考訳(メタデータ) (2021-03-13T02:03:53Z) - Adversarial Examples Detection beyond Image Space [88.7651422751216]
摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。
本研究では,画像ストリームが画素アーティファクトに注目し,勾配ストリームが信頼度アーティファクトに対応する2ストリームアーキテクチャによる画像空間を超えた手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T09:55:03Z) - Advocating for Multiple Defense Strategies against Adversarial Examples [66.90877224665168]
ニューラルネットワークを$ell_infty$敵の例から保護するために設計された防御機構が、性能の低下を実証的に観察されている。
本稿では,この観測を検証した幾何学的解析を行う。
そこで本研究では,この現象の実際的影響を説明するための実証的な知見を多数提示する。
論文 参考訳(メタデータ) (2020-12-04T14:42:46Z) - Defense against adversarial attacks on spoofing countermeasures of ASV [95.87555881176529]
本稿では,ASVスプーフィング対策モデルの脆弱性を軽減するために,パッシブ・ディフェンス法,空間平滑化法,プロアクティブ・ディフェンス・トレーニング法を提案する。
実験結果から, これらの2つの防御手法は, 対向する対向的例に対して, 対向的対策モデルを偽装するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2020-03-06T08:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。