論文の概要: Using Random Perturbations to Mitigate Adversarial Attacks on Sentiment
Analysis Models
- arxiv url: http://arxiv.org/abs/2202.05758v1
- Date: Fri, 11 Feb 2022 16:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 14:39:23.293087
- Title: Using Random Perturbations to Mitigate Adversarial Attacks on Sentiment
Analysis Models
- Title(参考訳): ランダム摂動を用いた感情分析モデルによる敵攻撃の軽減
- Authors: Abigail Swenor and Jugal Kalita
- Abstract要約: ディープラーニングモデルに対する攻撃は識別が難しい場合が多いため、防御が難しい場合が多い。
本稿では,必要であればスペルの修正,同義語による置換,あるいは単に単語をドロップするといったランダムな摂動を,テスト中に使用して解を提供する。
我々のランダム摂動防衛法と増加ランダムネス防衛法は、攻撃前のモデルと同様の精度で攻撃されたモデルを返すことに成功した。
- 参考スコア(独自算出の注目度): 2.792030485253753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attacks on deep learning models are often difficult to identify and therefore
are difficult to protect against. This problem is exacerbated by the use of
public datasets that typically are not manually inspected before use. In this
paper, we offer a solution to this vulnerability by using, during testing,
random perturbations such as spelling correction if necessary, substitution by
random synonym, or simply dropping the word. These perturbations are applied to
random words in random sentences to defend NLP models against adversarial
attacks. Our Random Perturbations Defense and Increased Randomness Defense
methods are successful in returning attacked models to similar accuracy of
models before attacks. The original accuracy of the model used in this work is
80% for sentiment classification. After undergoing attacks, the accuracy drops
to accuracy between 0% and 44%. After applying our defense methods, the
accuracy of the model is returned to the original accuracy within statistical
significance.
- Abstract(参考訳): ディープラーニングモデルに対する攻撃は識別が難しい場合が多いため、防御が難しい場合が多い。
この問題は、一般的に使用前に手動で検査されない公開データセットの使用によって悪化する。
本稿では,必要であればスペル訂正,異義語による置換,あるいは単に単語の削除といったランダムな摂動を用いて,この脆弱性に対する解決策を提案する。
これらの摂動はランダムな文のランダムな単語に適用され、NLPモデルを敵攻撃から守る。
我々のランダム摂動防衛と増加ランダムネス防衛は攻撃前のモデルと同様の精度で攻撃モデルを返すことに成功した。
本研究で用いたモデルの元々の精度は、感情分類の80%である。
攻撃を受けた後、精度は0%から44%に低下する。
防衛手法を適用した後、モデルの精度を統計的意義の中で元の精度に戻す。
関連論文リスト
- Deferred Poisoning: Making the Model More Vulnerable via Hessian Singularization [39.37308843208039]
我々は、より脅迫的なタイプの毒殺攻撃(Dederred Poisoning Attack)を導入する。
この新たな攻撃により、モデルは通常、トレーニングと検証フェーズで機能するが、回避攻撃や自然騒音に非常に敏感になる。
提案手法の理論的および実証的な解析を行い、画像分類タスクの実験を通してその効果を検証した。
論文 参考訳(メタデータ) (2024-11-06T08:27:49Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - DAD: Data-free Adversarial Defense at Test Time [21.741026088202126]
ディープモデルは敵の攻撃に非常に敏感である。
プライバシは、トレーニングデータではなく、トレーニングされたモデルのみへのアクセスを制限する、重要な関心事になっている。
我々は,「訓練データと統計値の欠如によるテスト時敵防衛」という全く新しい問題を提案する。
論文 参考訳(メタデータ) (2022-04-04T15:16:13Z) - Morphence: Moving Target Defense Against Adversarial Examples [3.822543555265593]
モフレンス(英: Morphence)は、モデルを敵の例に対して動くターゲットにすることで、防御的景観を変えるアプローチである。
Morphenceはベースモデルから生成されたモデルのプールを、予測クエリに応答するときに十分なランダム性をもたらす方法で展開する。
あらゆるケースにおいて、モルフェンスは、強力なホワイトボックス攻撃に直面した場合でも、そのように遠くの効果的な防御、敵の訓練を一貫して上回っている。
論文 参考訳(メタデータ) (2021-08-31T16:18:15Z) - SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics [44.487762480349765]
少量の中毒データは、攻撃者が特定した透かしによって、訓練されたモデルの行動を変える。
堅牢な共分散推定を用いて,破損したデータのスペクトルシグネチャを増幅する,新たな防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-22T20:49:40Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Adversarial examples are useful too! [47.64219291655723]
モデルがバックドア攻撃を受けたかどうかを判断する新しい手法を提案する。
その考え方は、FGSMのような従来の攻撃を用いて、標的または未標的の敵の例を生成することである。
障害のある地域を視覚的に見つけて、攻撃を露呈することができる。
論文 参考訳(メタデータ) (2020-05-13T01:38:56Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。