論文の概要: The Best Defense is Attack: Repairing Semantics in Textual Adversarial Examples
- arxiv url: http://arxiv.org/abs/2305.04067v2
- Date: Mon, 1 Apr 2024 15:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:51:35.873445
- Title: The Best Defense is Attack: Repairing Semantics in Textual Adversarial Examples
- Title(参考訳): セマンティックスをテクスチュアル・アドバイザリの例で修復するベスト・ディフェンス(動画あり)
- Authors: Heng Yang, Ke Li,
- Abstract要約: 反応摂動デフォーカス(Rapid)という新しいアプローチを導入する。
ラピッドは、敵の例の偽のラベルを識別し、敵の攻撃者を利用して敵の例のセマンティクスを修復するために、敵の検知器を使用している。
各種攻撃シナリオにおけるRapidの有効性を実証するために,4つの公開データセットを用いて大規模な実験を行った。
- 参考スコア(独自算出の注目度): 7.622122513456483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have revealed the vulnerability of pre-trained language models to adversarial attacks. Existing adversarial defense techniques attempt to reconstruct adversarial examples within feature or text spaces. However, these methods struggle to effectively repair the semantics in adversarial examples, resulting in unsatisfactory performance and limiting their practical utility. To repair the semantics in adversarial examples, we introduce a novel approach named Reactive Perturbation Defocusing (Rapid). Rapid employs an adversarial detector to identify fake labels of adversarial examples and leverage adversarial attackers to repair the semantics in adversarial examples. Our extensive experimental results conducted on four public datasets, convincingly demonstrate the effectiveness of Rapid in various adversarial attack scenarios. To address the problem of defense performance validation in previous works, we provide a demonstration of adversarial detection and repair based on our work, which can be easily evaluated at https://tinyurl.com/22ercuf8.
- Abstract(参考訳): 近年の研究では、対人攻撃に対する事前訓練された言語モデルの脆弱性が明らかにされている。
既存の敵防衛技術は、特徴空間やテキスト空間における敵の例を再構築しようとする。
しかし、これらの手法は、敵の例で意味論を効果的に修復するのに苦労し、不満足な性能と実用性を制限する結果となった。
敵の例でセマンティクスを修復するために、リアクティブ摂動デフォーカス(Rapid)と呼ばれる新しいアプローチを導入する。
ラピッドは、敵の例の偽のラベルを識別し、敵の攻撃者を利用して敵の例のセマンティクスを修復するために、敵の検知器を使用している。
各種攻撃シナリオにおけるRapidの有効性を実証するために,4つの公開データセットを用いて大規模な実験を行った。
従来の作業における防御性能検証の問題に対処するため,我々の作業に基づく敵検出と修復の実証を行い,https://tinyurl.com/22ercuf8で容易に評価できることを示した。
関連論文リスト
- MPAT: Building Robust Deep Neural Networks against Textual Adversarial
Attacks [4.208423642716679]
本稿では,敵対的攻撃に対する堅牢な深層ニューラルネットワーク構築のための悪質な摂動に基づく敵対的訓練法を提案する。
具体的には、悪意のある摂動を伴う敵例を生成するために、多段階の悪意のあるサンプル生成戦略を構築する。
本研究では, 目標達成のために, 目標達成のための新たな訓練目標関数を, 本来のタスクの性能を損なうことなく採用する。
論文 参考訳(メタデータ) (2024-02-29T01:49:18Z) - AdvFAS: A robust face anti-spoofing framework against adversarial
examples [24.07755324680827]
本稿では,2つの組み合わされたスコアを利用して,正しく検出された顔画像と誤検出された顔画像とを正確に識別する,頑健な顔アンチスプーフィングフレームワークAdvFASを提案する。
実験では、さまざまなアタック、データセット、バックボーンなど、さまざまな設定でフレームワークの有効性を実証しています。
論文 参考訳(メタデータ) (2023-08-04T02:47:19Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Learning Defense Transformers for Counterattacking Adversarial Examples [43.59730044883175]
ディープニューラルネットワーク(DNN)は、小さな摂動を伴う逆例に対して脆弱である。
既存の防御メソッドは、特定のタイプの敵の例に焦点を当てており、現実世界のアプリケーションでは防御に失敗する可能性がある。
敵対例を元のクリーンな分布に戻すことで、敵対例に対して防御できるかどうかという新たな視点から、敵対例を研究します。
論文 参考訳(メタデータ) (2021-03-13T02:03:53Z) - Adversarial Examples Detection beyond Image Space [88.7651422751216]
摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。
本研究では,画像ストリームが画素アーティファクトに注目し,勾配ストリームが信頼度アーティファクトに対応する2ストリームアーキテクチャによる画像空間を超えた手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T09:55:03Z) - Adversarial Training against Location-Optimized Adversarial Patches [84.96938953835249]
反対のパッチ: 明らかに見えますが 反対に作られた長方形のパッチです
まず、画像内の位置を積極的に最適化しながら、相手パッチを得るための実践的なアプローチを考案する。
CIFAR10とGTSRBでは,これらの位置最適化された対向パッチに対して対向トレーニングを適用し,ロバスト性を著しく向上した。
論文 参考訳(メタデータ) (2020-05-05T16:17:00Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。