Fugu-MT 論文翻訳(概要): Reactive Perturbation Defocusing for Textual Adversarial Defense

論文の概要: Reactive Perturbation Defocusing for Textual Adversarial Defense

arxiv url: http://arxiv.org/abs/2305.04067v1
Date: Sat, 6 May 2023 15:14:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 17:47:07.383052
Title: Reactive Perturbation Defocusing for Textual Adversarial Defense
Title（参考訳）: テキスト対向防御のための反応性摂動
Authors: Heng Yang, Ke Li
Abstract要約: 本稿では、RPD(Reactive Perturbation Defocusing)と呼ばれる手法を提案する。 RPDは、敵の例を特定し、自然の例に対する偽の防御を減らすために、敵の検出器を使用する。実験の結果,提案手法は正反対例の約97%を修復できることがわかった。
参考スコア（独自算出の注目度）: 12.772780082672316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have shown that large pre-trained language models are vulnerable to adversarial attacks. Existing methods attempt to reconstruct the adversarial examples. However, these methods usually have limited performance in defense against adversarial examples, while also negatively impacting the performance on natural examples. To overcome this problem, we propose a method called Reactive Perturbation Defocusing (RPD). RPD uses an adversarial detector to identify adversarial examples and reduce false defenses on natural examples. Instead of reconstructing the adversaries, RPD injects safe perturbations into adversarial examples to distract the objective models from the malicious perturbations. Our experiments on three datasets, two objective models, and various adversarial attacks show that our proposed framework successfully repairs up to approximately 97% of correctly identified adversarial examples with only about a 2% performance decrease on natural examples. We also provide a demo of adversarial detection and repair based on our work.
Abstract（参考訳）: 近年の研究では、大規模な事前学習言語モデルが敵の攻撃に弱いことが示されている。既存の手法は敵の例を再構築しようとする。しかし、これらの手法は通常、敵対的な例に対する防御性能に制限があり、また自然例の性能に悪影響を及ぼす。この問題を克服するため,我々はrpd(reactive perturbation defocusing)と呼ばれる手法を提案する。 RPDは、敵の例を特定し、自然の例に対する偽の防御を減らすために、敵の検出器を使用する。敵を再構築する代わりに、RDDは敵の例に安全な摂動を注入し、標的モデルを悪意のある摂動から遠ざける。提案手法は,3つのデータセット,2つの対象モデル,および種々の敵攻撃に対する実験により,同定された敵例の約97%の修復に成功し,自然例では約2%の性能低下を示した。また,本研究に基づく敵検出と修復のデモも提供する。

関連論文リスト

Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文参考訳（メタデータ） (2025-06-06T17:33:33Z)
MPAT: Building Robust Deep Neural Networks against Textual Adversarial Attacks [4.208423642716679]
本稿では,敵対的攻撃に対する堅牢な深層ニューラルネットワーク構築のための悪質な摂動に基づく敵対的訓練法を提案する。具体的には、悪意のある摂動を伴う敵例を生成するために、多段階の悪意のあるサンプル生成戦略を構築する。本研究では, 目標達成のために, 目標達成のための新たな訓練目標関数を, 本来のタスクの性能を損なうことなく採用する。
論文参考訳（メタデータ） (2024-02-29T01:49:18Z)
AdvFAS: A robust face anti-spoofing framework against adversarial examples [24.07755324680827]
本稿では,2つの組み合わされたスコアを利用して,正しく検出された顔画像と誤検出された顔画像とを正確に識別する,頑健な顔アンチスプーフィングフレームワークAdvFASを提案する。実験では、さまざまなアタック、データセット、バックボーンなど、さまざまな設定でフレームワークの有効性を実証しています。
論文参考訳（メタデータ） (2023-08-04T02:47:19Z)
Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文参考訳（メタデータ） (2022-07-21T07:51:45Z)
Adversarial Robustness of Deep Reinforcement Learning based Dynamic Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文参考訳（メタデータ） (2021-12-02T04:12:24Z)
TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。 3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文参考訳（メタデータ） (2021-09-13T03:31:20Z)
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文参考訳（メタデータ） (2021-06-01T07:10:54Z)
Learning Defense Transformers for Counterattacking Adversarial Examples [43.59730044883175]
ディープニューラルネットワーク(DNN)は、小さな摂動を伴う逆例に対して脆弱である。既存の防御メソッドは、特定のタイプの敵の例に焦点を当てており、現実世界のアプリケーションでは防御に失敗する可能性がある。敵対例を元のクリーンな分布に戻すことで、敵対例に対して防御できるかどうかという新たな視点から、敵対例を研究します。
論文参考訳（メタデータ） (2021-03-13T02:03:53Z)
Adversarial Examples Detection beyond Image Space [88.7651422751216]
摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。本研究では,画像ストリームが画素アーティファクトに注目し,勾配ストリームが信頼度アーティファクトに対応する2ストリームアーキテクチャによる画像空間を超えた手法を提案する。
論文参考訳（メタデータ） (2021-02-23T09:55:03Z)
Adversarial Training against Location-Optimized Adversarial Patches [84.96938953835249]
反対のパッチ: 明らかに見えますが反対に作られた長方形のパッチですまず、画像内の位置を積極的に最適化しながら、相手パッチを得るための実践的なアプローチを考案する。 CIFAR10とGTSRBでは,これらの位置最適化された対向パッチに対して対向トレーニングを適用し,ロバスト性を著しく向上した。
論文参考訳（メタデータ） (2020-05-05T16:17:00Z)
Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文参考訳（メタデータ） (2020-03-03T18:15:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。