論文の概要: Masked Language Model Based Textual Adversarial Example Detection
- arxiv url: http://arxiv.org/abs/2304.08767v2
- Date: Wed, 19 Apr 2023 11:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 10:34:25.411111
- Title: Masked Language Model Based Textual Adversarial Example Detection
- Title(参考訳): マスキング言語モデルに基づくテキスト逆例検出
- Authors: Xiaomei Zhang, Zhaoxi Zhang, Qi Zhong, Xufei Zheng, Yanjun Zhang,
Shengshan Hu, Leo Yu Zhang
- Abstract要約: アドリアックは、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。
本稿では,MLMD(Masked Model-based Detection)という新たなテキスト対逆例検出手法を提案する。
- 参考スコア(独自算出の注目度): 8.752719679394367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks are a serious threat to the reliable deployment of
machine learning models in safety-critical applications. They can misguide
current models to predict incorrectly by slightly modifying the inputs.
Recently, substantial work has shown that adversarial examples tend to deviate
from the underlying data manifold of normal examples, whereas pre-trained
masked language models can fit the manifold of normal NLP data. To explore how
to use the masked language model in adversarial detection, we propose a novel
textual adversarial example detection method, namely Masked Language
Model-based Detection (MLMD), which can produce clearly distinguishable signals
between normal examples and adversarial examples by exploring the changes in
manifolds induced by the masked language model. MLMD features a plug and play
usage (i.e., no need to retrain the victim model) for adversarial defense and
it is agnostic to classification tasks, victim model's architectures, and
to-be-defended attack methods. We evaluate MLMD on various benchmark textual
datasets, widely studied machine learning models, and state-of-the-art (SOTA)
adversarial attacks (in total $3*4*4 = 48$ settings). Experimental results show
that MLMD can achieve strong performance, with detection accuracy up to 0.984,
0.967, and 0.901 on AG-NEWS, IMDB, and SST-2 datasets, respectively.
Additionally, MLMD is superior, or at least comparable to, the SOTA detection
defenses in detection accuracy and F1 score. Among many defenses based on the
off-manifold assumption of adversarial examples, this work offers a new angle
for capturing the manifold change. The code for this work is openly accessible
at \url{https://github.com/mlmddetection/MLMDdetection}.
- Abstract(参考訳): 敵攻撃は、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。
入力をわずかに修正することで、電流モデルを誤って予測することができる。
近年、多くの研究が、逆例は通常の例のデータ多様体から逸脱する傾向を示し、一方、事前学習されたマスキング言語モデルは通常のNLPデータの多様体に適合することを示した。
マスク付き言語モデルを用いた対向検出手法を提案するために,マスク付き言語モデルによって誘導される多様体の変化を探索することにより,正規例と対向例とを明確に区別可能な信号を生成できる,新しいテキスト対向的サンプル検出手法であるMasked Language Model-based Detection (MLMD)を提案する。
MLMDは、敵防衛のためのプラグ・アンド・プレイの使用法(すなわち、犠牲者モデルを再訓練する必要がない)を備えており、分類タスク、犠牲者モデルのアーキテクチャ、そして防御された攻撃方法には依存しない。
我々は、様々なベンチマークテキストデータセット、広く研究された機械学習モデル、および最先端(sota)敵対的攻撃(合計3*4*4 = 48$設定)でmlmdを評価する。
実験の結果, MLMDはAG-NEWS, IMDB, SST-2データセット上で, 0.984, 0.967, 0.901の検出精度で高い性能が得られることがわかった。
さらに、MLMDは、検出精度およびF1スコアにおけるSOTA検出防御よりも優れているか、少なくとも同等である。
逆例のオフマンフォールドの仮定に基づく多くの防衛の中で、この研究は多様体の変化を捉えるための新しい角度を提供する。
この作業のコードは \url{https://github.com/mlmddetection/mlmddetection} で公開されている。
関連論文リスト
- SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - EMShepherd: Detecting Adversarial Samples via Side-channel Leakage [6.868995628617191]
敵対的攻撃は、ディープラーニングを駆使したクリティカルな応用にとって悲惨な結果をもたらす。
モデル実行の電磁的トレースを捕捉し、トレース上で処理を行い、敵検出に利用するためのフレームワークEMShepherdを提案する。
提案手法は,一般的に使用されているFPGA深層学習アクセラレータ上で,異なる敵攻撃を効果的に検出できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T19:38:55Z) - Towards Generating Adversarial Examples on Mixed-type Data [32.41305735919529]
そこで本研究では,M-Attackを用いた攻撃アルゴリズムを提案する。
M-Attackをベースとした攻撃者は、与えられたデータサンプルの数値的特徴と分類的特徴の両方をわずかに摂動させることで、ターゲットの分類モデルの予測を誤解させようとする。
我々の生成した敵の例は潜在的な検出モデルを避けることができるため、攻撃は本当に惨めである。
論文 参考訳(メタデータ) (2022-10-17T20:17:21Z) - Instance Attack:An Explanation-based Vulnerability Analysis Framework
Against DNNs for Malware Detection [0.0]
本稿では,インスタンスベースの攻撃の概念を提案する。
我々の方式は解釈可能であり、ブラックボックス環境でも機能する。
提案手法はブラックボックス設定で動作し,その結果をドメイン知識で検証することができる。
論文 参考訳(メタデータ) (2022-09-06T12:41:20Z) - Stateful Detection of Model Extraction Attacks [9.405458160620535]
本稿では,サービスのユーザが生成したクエリの分布を追跡し,モデル抽出攻撃を検出する,ステートフルなモニタであるVarDetectを提案する。
VarDetectは、3種類の攻撃者サンプルを良質なサンプルからしっかりと分離し、それぞれにアラームを発生させることに成功した。
本稿では,VarDetectのデプロイに関する事前知識を持つアダプティブアタッカーも検出できることを実証する。
論文 参考訳(メタデータ) (2021-07-12T02:18:26Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。