論文の概要: MINIMAL: Mining Models for Data Free Universal Adversarial Triggers
- arxiv url: http://arxiv.org/abs/2109.12406v1
- Date: Sat, 25 Sep 2021 17:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 10:02:29.542393
- Title: MINIMAL: Mining Models for Data Free Universal Adversarial Triggers
- Title(参考訳): MINIMAL:データフリーユニバーサル対応トリガーのマイニングモデル
- Authors: Swapnil Parekh, Yaman Singla Kumar, Somesh Singh, Changyou Chen,
Balaji Krishnamurthy, and Rajiv Ratn Shah
- Abstract要約: 我々は、NLPモデルから入力非依存の逆のトリガーをマイニングするための、新しいデータフリーアプローチ、MINIMALを提案する。
我々はスタンフォード・センティメント・ツリーバンクの正のクラスを93.6%から9.6%に減らした。
SNLI(Stanford Natural Language Inference)では、このシングルワードトリガーによって、エンターメントクラスの精度が90.95%から0.6%未満に低下する。
- 参考スコア(独自算出の注目度): 57.14359126600029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is well known that natural language models are vulnerable to adversarial
attacks, which are mostly input-specific in nature. Recently, it has been shown
that there also exist input-agnostic attacks in NLP models, called universal
adversarial triggers. However, existing methods to craft universal triggers are
data intensive. They require large amounts of data samples to generate
adversarial triggers, which are typically inaccessible by attackers. For
instance, previous works take 3000 data samples per class for the SNLI dataset
to generate adversarial triggers. In this paper, we present a novel data-free
approach, MINIMAL, to mine input-agnostic adversarial triggers from models.
Using the triggers produced with our data-free algorithm, we reduce the
accuracy of Stanford Sentiment Treebank's positive class from 93.6% to 9.6%.
Similarly, for the Stanford Natural Language Inference (SNLI), our single-word
trigger reduces the accuracy of the entailment class from 90.95% to less than
0.6\%. Despite being completely data-free, we get equivalent accuracy drops as
data-dependent methods.
- Abstract(参考訳): 自然言語モデルは本質的には入力特異的な攻撃に対して脆弱であることはよく知られている。
近年,universal adversarial triggersと呼ばれるnlpモデルに入力に依存しない攻撃が存在することが示されている。
しかし、万能トリガーを作る既存の手法はデータ集約である。
攻撃者が通常アクセスできない敵のトリガーを生成するには、大量のデータサンプルが必要である。
例えば、以前の作業では、snliデータセットのクラス毎に3000データサンプルを取得して、逆トリガを生成する。
本稿では,モデルから入力非依存の逆トリガを抽出するための新しいデータフリーアプローチ,MINIMALを提案する。
データフリーのアルゴリズムで生成されたトリガーを用いて、Stanford Sentiment Treebankの正のクラスを93.6%から9.6%に削減する。
同様に、Stanford Natural Language Inference (SNLI) では、私たちのシングルワードトリガーはエンテーメントクラスの精度を 90.95% から 0.6 % 未満に下げる。
完全にデータフリーであるにもかかわらず、データ依存の手法として同等の精度低下が得られます。
関連論文リスト
- Bypassing DARCY Defense: Indistinguishable Universal Adversarial Triggers [11.64617586381446]
IndisUATと呼ばれる新しいUAT生成手法が、敵の例を作るのにどのように使えるかを示す。
生成した逆数例は、DARCY保護モデルにおける予測結果の最大損失をもたらす。
IndesUAT は DARCY の検出の正の確率を少なくとも 40.8% と 90.6% に下げ、それぞれ RNN と CNN のモデルで 33.3% と 51.6% の精度を下げることができる。
論文 参考訳(メタデータ) (2024-09-05T02:19:34Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Poisoning Language Models During Instruction Tuning [111.74511130997868]
敵が有毒な例をデータセットに提供し、モデル予測を操作できることが示される。
例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
論文 参考訳(メタデータ) (2023-05-01T16:57:33Z) - Targeted Attack on GPT-Neo for the SATML Language Model Data Extraction
Challenge [4.438873396405334]
SATML2023言語モデル学習データ抽出チャレンジにターゲットデータ抽出攻撃を適用する。
モデルのリコールを最大化し,サンプルの69%の接尾辞を抽出できる。
提案手法は10パーセントの偽陽性率で0.405リコールに達し, 0.301のベースラインよりも34%向上した。
論文 参考訳(メタデータ) (2023-02-13T18:00:44Z) - Semantic Preserving Adversarial Attack Generation with Autoencoder and
Genetic Algorithm [29.613411948228563]
小さなノイズは、最先端のモデルを騙して誤った予測をする。
自動エンコーダによって抽出されたデータの潜時特性を変更するブラックボックス攻撃を提案する。
我々は,MNISTとCIFAR-10データセットを用いてオートエンコーダを訓練し,遺伝的アルゴリズムを用いて最適な逆方向摂動を発見した。
論文 参考訳(メタデータ) (2022-08-25T17:27:26Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Label-only Model Inversion Attack: The Attack that Requires the Least
Information [14.061083728194378]
モデル反転攻撃では、敵はモデル出力のみを使用してターゲットモデルをトレーニングするために使用されるデータレコードを再構築しようと試みる。
出力ラベルのみに基づいて入力データレコードを再構成できるモデル逆変換法が発見された。
論文 参考訳(メタデータ) (2022-03-13T03:03:49Z) - Learnable Boundary Guided Adversarial Training [66.57846365425598]
私たちは、あるクリーンモデルからのモデルロジットを使用して、別のロバストモデルの学習をガイドします。
我々は、CIFAR-100上で、追加の実データや合成データなしで、新しい最先端のロバスト性を実現する。
論文 参考訳(メタデータ) (2020-11-23T01:36:05Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。