論文の概要: Gradient-based adversarial attacks on categorical sequence models via
traversing an embedded world
- arxiv url: http://arxiv.org/abs/2003.04173v3
- Date: Mon, 12 Oct 2020 17:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:06:29.860735
- Title: Gradient-based adversarial attacks on categorical sequence models via
traversing an embedded world
- Title(参考訳): 埋め込み世界へのトラバースによるカテゴリー系列モデルの勾配に基づく逆攻撃
- Authors: Ivan Fursov, Alexey Zaytsev, Nikita Kluchnikov, Andrey Kravchenko,
Evgeny Burnaev
- Abstract要約: 我々は、分類列を持つディープラーニングモデルに対する敵対的攻撃について検討する。
2つのブラックボックス攻撃を用いてこれらの課題に対処する。
金銭取引、医療詐欺、NLPデータセットの結果は、提案手法が合理的な逆数列を生成することを示唆している。
- 参考スコア(独自算出の注目度): 11.711134497239332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models suffer from a phenomenon called adversarial attacks: we
can apply minor changes to the model input to fool a classifier for a
particular example. The literature mostly considers adversarial attacks on
models with images and other structured inputs. However, the adversarial
attacks for categorical sequences can also be harmful. Successful attacks for
inputs in the form of categorical sequences should address the following
challenges: (1) non-differentiability of the target function, (2) constraints
on transformations of initial sequences, and (3) diversity of possible
problems. We handle these challenges using two black-box adversarial attacks.
The first approach adopts a Monte-Carlo method and allows usage in any
scenario, the second approach uses a continuous relaxation of models and target
metrics, and thus allows usage of state-of-the-art methods for adversarial
attacks with little additional effort. Results for money transactions, medical
fraud, and NLP datasets suggest that proposed methods generate reasonable
adversarial sequences that are close to original ones but fool machine learning
models.
- Abstract(参考訳): ディープラーニングモデルは、敵対攻撃と呼ばれる現象に悩まされる: 特定の例の分類器を騙すために、モデル入力に小さな変更を加えることができる。
この文献は、主に画像やその他の構造化された入力を持つモデルに対する敵対的な攻撃を考察している。
しかし、カテゴリー配列に対する敵対的な攻撃もまた有害である。
1) 対象関数の非微分可能性、(2) 初期シーケンスの変換に関する制約、(3) 可能な問題の多様性。
2つのブラックボックス攻撃を用いてこれらの課題に対処する。
第1のアプローチはモンテカルロ法を採用し、任意のシナリオでの使用を可能にし、第2のアプローチはモデルとターゲットメトリクスの継続的な緩和を使い、そのため、敵攻撃に対する最先端の手法を、追加の労力で使用することができる。
金銭取引、医療詐欺、NLPデータセットの結果は、提案手法が元のものと近いが愚かな機械学習モデルを生成することを示唆している。
関連論文リスト
- Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - Towards Generating Adversarial Examples on Mixed-type Data [32.41305735919529]
そこで本研究では,M-Attackを用いた攻撃アルゴリズムを提案する。
M-Attackをベースとした攻撃者は、与えられたデータサンプルの数値的特徴と分類的特徴の両方をわずかに摂動させることで、ターゲットの分類モデルの予測を誤解させようとする。
我々の生成した敵の例は潜在的な検出モデルを避けることができるため、攻撃は本当に惨めである。
論文 参考訳(メタデータ) (2022-10-17T20:17:21Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Asymptotic Behavior of Adversarial Training in Binary Classification [41.7567932118769]
敵の訓練は、敵の攻撃に対する防衛の最先端の方法と考えられている。
実際に成功したにもかかわらず、敵の訓練のパフォーマンスを理解する上でのいくつかの問題は未解決のままである。
2進分類における対角訓練の最小化のための正確な理論的予測を導出する。
論文 参考訳(メタデータ) (2020-10-26T01:44:20Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。