論文の概要: Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers
- arxiv url: http://arxiv.org/abs/2006.11078v1
- Date: Fri, 19 Jun 2020 11:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 03:57:40.700216
- Title: Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers
- Title(参考訳): カテゴリー系列分類器に対する微分可能言語モデル逆攻撃
- Authors: I. Fursov, A. Zaytsev, N. Kluchnikov, A. Kravchenko, E. Burnaev
- Abstract要約: 敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An adversarial attack paradigm explores various scenarios for the
vulnerability of deep learning models: minor changes of the input can force a
model failure. Most of the state of the art frameworks focus on adversarial
attacks for images and other structured model inputs, but not for categorical
sequences models.
Successful attacks on classifiers of categorical sequences are challenging
because the model input is tokens from finite sets, so a classifier score is
non-differentiable with respect to inputs, and gradient-based attacks are not
applicable. Common approaches deal with this problem working at a token level,
while the discrete optimization problem at hand requires a lot of resources to
solve.
We instead use a fine-tuning of a language model for adversarial attacks as a
generator of adversarial examples. To optimize the model, we define a
differentiable loss function that depends on a surrogate classifier score and
on a deep learning model that evaluates approximate edit distance. So, we
control both the adversability of a generated sequence and its similarity to
the initial sequence.
As a result, we obtain semantically better samples. Moreover, they are
resistant to adversarial training and adversarial detectors. Our model works
for diverse datasets on bank transactions, electronic health records, and NLP
datasets.
- Abstract(参考訳): 敵対的な攻撃パラダイムは、ディープラーニングモデルの脆弱性に関するさまざまなシナリオを探索する。
アートフレームワークのほとんどの状態は、画像やその他の構造化されたモデル入力に対する敵攻撃に焦点を当てているが、分類的なシーケンスモデルには当てはまらない。
分類列の分類器に対する攻撃の成功は、モデル入力が有限集合からのトークンであるため困難であり、分類器スコアは入力に関して微分不可能であり、勾配に基づく攻撃は適用されない。
共通アプローチはトークンレベルで作業するこの問題に対処するが、離散最適化の問題には解決すべきリソースが数多く必要である。
代わりに、敵の攻撃に対して言語モデルの微調整を敵の例の生成として使用します。
モデルを最適化するために,サロゲート分類子スコアに依存する微分可能損失関数と,近似編集距離を評価するディープラーニングモデルを定義する。
そこで,生成シーケンスの可逆性と初期シーケンスとの類似性の両方を制御する。
その結果,意味的に優れたサンプルが得られた。
さらに、敵の訓練や敵の検知にも耐性がある。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットで動作する。
関連論文リスト
- MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning [1.534667887016089]
ディープニューラルネットワーク(DNN)は、わずかに敵対的な摂動に対して脆弱である。
トレーニング中の強力な特徴表現学習は、元のモデルの堅牢性を大幅に向上させることができることを示す。
本稿では,多目的特徴表現学習手法であるMORELを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:05:03Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - On Evaluating the Adversarial Robustness of Semantic Segmentation Models [0.0]
敵の摂動に対する防御手段として、多くの敵の訓練アプローチが提案されている。
私たちは、前回の作業で堅牢であると主張するモデルが、実際にはまったく堅牢ではないことを初めて示しています。
次に, 強攻撃群においても, 合理的に堅牢なモデルを生成する, 単純な対向訓練アルゴリズムを評価する。
論文 参考訳(メタデータ) (2023-06-25T11:45:08Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - ATRO: Adversarial Training with a Rejection Option [10.36668157679368]
本稿では, 逆例による性能劣化を軽減するために, 拒否オプション付き分類フレームワークを提案する。
分類器と拒否関数を同時に適用することにより、テストデータポイントの分類に自信が不十分な場合に分類を控えることができる。
論文 参考訳(メタデータ) (2020-10-24T14:05:03Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Gradient-based adversarial attacks on categorical sequence models via
traversing an embedded world [11.711134497239332]
我々は、分類列を持つディープラーニングモデルに対する敵対的攻撃について検討する。
2つのブラックボックス攻撃を用いてこれらの課題に対処する。
金銭取引、医療詐欺、NLPデータセットの結果は、提案手法が合理的な逆数列を生成することを示唆している。
論文 参考訳(メタデータ) (2020-03-09T14:31:36Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。