論文の概要: Sample Attackability in Natural Language Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2306.12043v1
- Date: Wed, 21 Jun 2023 06:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 14:48:00.375988
- Title: Sample Attackability in Natural Language Adversarial Attacks
- Title(参考訳): 自然言語攻撃におけるサンプル攻撃性
- Authors: Vyas Raina and Mark Gales
- Abstract要約: この研究は、NLP攻撃に対するサンプル攻撃可能性/ロバスト性の定義を正式に拡張した。
2つの人気のあるNLPデータセット、アートモデルの4つの状態、および4つの異なるNLP逆攻撃方法の実験。
- 参考スコア(独自算出の注目度): 1.4213973379473654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attack research in natural language processing (NLP) has made
significant progress in designing powerful attack methods and defence
approaches. However, few efforts have sought to identify which source samples
are the most attackable or robust, i.e. can we determine for an unseen target
model, which samples are the most vulnerable to an adversarial attack. This
work formally extends the definition of sample attackability/robustness for NLP
attacks. Experiments on two popular NLP datasets, four state of the art models
and four different NLP adversarial attack methods, demonstrate that sample
uncertainty is insufficient for describing characteristics of attackable/robust
samples and hence a deep learning based detector can perform much better at
identifying the most attackable and robust samples for an unseen target model.
Nevertheless, further analysis finds that there is little agreement in which
samples are considered the most attackable/robust across different NLP attack
methods, explaining a lack of portability of attackability detection methods
across attack methods.
- Abstract(参考訳): 自然言語処理(NLP)における敵攻撃研究は、強力な攻撃方法や防御アプローチを設計する上で大きな進歩を遂げている。
しかし、どのソースサンプルが最も攻撃性があり、堅牢であるかを特定する努力はほとんどなく、敵の攻撃に対して最も脆弱なサンプルである未発見のターゲットモデルを決定することができる。
この研究は、NLP攻撃に対するサンプル攻撃可能性/ロバスト性の定義を正式に拡張した。
2つの人気のあるNLPデータセット、芸術モデルの4つの状態と4つの異なるNLP攻撃方法の実験は、攻撃可能な/破壊可能なサンプルの特徴を記述するにはサンプルの不確実性が不十分であることを示す。
それにもかかわらず、さらなる分析では、サンプルが様々なNLP攻撃方法において最も攻撃性/破壊性が高いとみなすような合意はほとんどなく、攻撃可能性検出手法のポータビリティの欠如が説明されている。
関連論文リスト
- DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Identifying Adversarially Attackable and Robust Samples [1.4213973379473654]
アドリアックは、入力サンプルに小さな、知覚不能な摂動を挿入し、ディープラーニングモデルの出力に大きな、望ましくない変化を引き起こす。
本研究は, 対人攻撃に最も影響を受けやすいサンプルを同定することを目的とした, サンプル攻撃可能性の概念を紹介する。
本研究では,未知のターゲットモデルに対する未知のデータセットにおいて,逆攻撃可能で頑健なサンプルを識別するディープラーニングベースの検出器を提案する。
論文 参考訳(メタデータ) (2023-01-30T13:58:14Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Towards Generating Adversarial Examples on Mixed-type Data [32.41305735919529]
そこで本研究では,M-Attackを用いた攻撃アルゴリズムを提案する。
M-Attackをベースとした攻撃者は、与えられたデータサンプルの数値的特徴と分類的特徴の両方をわずかに摂動させることで、ターゲットの分類モデルの予測を誤解させようとする。
我々の生成した敵の例は潜在的な検出モデルを避けることができるため、攻撃は本当に惨めである。
論文 参考訳(メタデータ) (2022-10-17T20:17:21Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Generating Natural Language Adversarial Examples through An Improved
Beam Search Algorithm [0.5735035463793008]
本稿では,新しい攻撃モデルを提案し,その攻撃成功率はベンチマーク攻撃法を超越している。
この手法は,4つのベンチマークデータセット上でWordCNN,LSTM,BiLSTM,BERTを攻撃することによって実証的に評価される。
IMDB上でBERTとBiLSTMを攻撃した場合、最先端の手法よりも100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2021-10-15T12:09:04Z) - Adversarial example generation with AdaBelief Optimizer and Crop
Invariance [8.404340557720436]
敵攻撃は、安全クリティカルなアプリケーションにおいて堅牢なモデルを評価し、選択するための重要な方法である。
本稿では,AdaBelief Iterative Fast Gradient Method (ABI-FGM)とCrop-Invariant attack Method (CIM)を提案する。
我々の手法は、最先端の勾配に基づく攻撃法よりも成功率が高い。
論文 参考訳(メタデータ) (2021-02-07T06:00:36Z) - Are Adversarial Examples Created Equal? A Learnable Weighted Minimax
Risk for Robustness under Non-uniform Attacks [70.11599738647963]
敵の訓練は、強力な攻撃に耐える数少ない防衛の1つである。
従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提とします。
非一様攻撃に対して重み付けされたミニマックスリスク最適化を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:20:35Z) - Membership Leakage in Label-Only Exposures [10.875144776014533]
本稿では,機械学習モデルに対する決定に基づくメンバシップ推論攻撃を提案する。
特に、転送攻撃と境界攻撃という2種類の意思決定ベースの攻撃を考案する。
また,量的および質的分析に基づく会員推定の成功に関する新たな知見も提示する。
論文 参考訳(メタデータ) (2020-07-30T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。