論文の概要: A Relaxed Optimization Approach for Adversarial Attacks against Neural
Machine Translation Models
- arxiv url: http://arxiv.org/abs/2306.08492v1
- Date: Wed, 14 Jun 2023 13:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:56:40.406345
- Title: A Relaxed Optimization Approach for Adversarial Attacks against Neural
Machine Translation Models
- Title(参考訳): ニューラルネットワーク翻訳モデルに対する逆攻撃に対する緩和最適化手法
- Authors: Sahar Sadrizadeh, Cl\'ement Barbier, Ljiljana Dolamic, Pascal Frossard
- Abstract要約: 本稿では,ニューラルネットワーク翻訳(NMT)モデルに対する最適化に基づく逆攻撃を提案する。
実験の結果,NMTモデルの翻訳品質は有意に低下した。
我々の攻撃は、成功率、類似性保存、翻訳品質への影響、トークンエラー率の点で、ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 44.04452616807661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an optimization-based adversarial attack against
Neural Machine Translation (NMT) models. First, we propose an optimization
problem to generate adversarial examples that are semantically similar to the
original sentences but destroy the translation generated by the target NMT
model. This optimization problem is discrete, and we propose a continuous
relaxation to solve it. With this relaxation, we find a probability
distribution for each token in the adversarial example, and then we can
generate multiple adversarial examples by sampling from these distributions.
Experimental results show that our attack significantly degrades the
translation quality of multiple NMT models while maintaining the semantic
similarity between the original and adversarial sentences. Furthermore, our
attack outperforms the baselines in terms of success rate, similarity
preservation, effect on translation quality, and token error rate. Finally, we
propose a black-box extension of our attack by sampling from an optimized
probability distribution for a reference model whose gradients are accessible.
- Abstract(参考訳): 本稿では,ニューラルネットワーク翻訳(NMT)モデルに対する最適化に基づく逆攻撃を提案する。
まず、原文と意味的に類似しているが、ターゲットNMTモデルによって生成された翻訳を破壊できる逆例を生成する最適化問題を提案する。
この最適化問題は離散的であり,それを解くための連続緩和を提案する。
この緩和により、各トークンの確率分布が逆の例に現れ、これらの分布からサンプリングすることで複数の逆の例を生成することができる。
実験結果から,本攻撃はNMTモデルの翻訳品質を著しく低下させつつ,原文と逆文のセマンティックな類似性を維持できることがわかった。
さらに,本攻撃は,成功率,類似性保持率,翻訳品質への影響,トークンエラー率において,ベースラインを上回っている。
最後に,勾配がアクセス可能な参照モデルの最適確率分布からサンプリングすることにより,攻撃のブラックボックス拡張を提案する。
関連論文リスト
- A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation [66.58025084857556]
我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:12:53Z) - Boosting Adversarial Transferability by Achieving Flat Local Maxima [23.91315978193527]
近年、様々な敵の攻撃が出現し、異なる視点から敵の移動可能性を高めている。
本研究では, 平坦な局所領域における逆例が良好な伝達性を持つ傾向があることを仮定し, 実証的に検証する。
目的関数の勾配更新を簡略化する近似最適化法を提案する。
論文 参考訳(メタデータ) (2023-06-08T14:21:02Z) - Making Substitute Models More Bayesian Can Enhance Transferability of
Adversarial Examples [89.85593878754571]
ディープニューラルネットワークにおける敵の例の転送可能性は多くのブラックボックス攻撃の欠如である。
我々は、望ましい転送可能性を達成するためにベイズモデルを攻撃することを提唱する。
我々の手法は近年の最先端を大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-02-10T07:08:13Z) - TransFool: An Adversarial Attack against Neural Machine Translation
Models [49.50163349643615]
敵攻撃に対するニューラルネットワーク翻訳(NMT)モデルの脆弱性を調査し,TransFoolと呼ばれる新たな攻撃アルゴリズムを提案する。
クリーンなサンプルと高いレベルのセマンティックな類似性を保ったソースコード言語で、流動的な逆の例を生成する。
自動的および人的評価に基づいて、TransFoolは、既存の攻撃と比較して成功率、意味的類似性、流布率の改善につながる。
論文 参考訳(メタデータ) (2023-02-02T08:35:34Z) - Strong Transferable Adversarial Attacks via Ensembled Asymptotically Normal Distribution Learning [24.10329164911317]
多重漸近正規分布攻撃(MultiANDA)という手法を提案する。
我々は勾配上昇(SGA)の正規性を利用して摂動の後方分布を近似する。
提案手法は、防御の有無にかかわらず、ディープラーニングモデルに対する10の最先端のブラックボックス攻撃より優れる。
論文 参考訳(メタデータ) (2022-09-24T08:57:10Z) - Generating Authentic Adversarial Examples beyond Meaning-preserving with
Doubly Round-trip Translation [64.16077929617119]
二重ラウンド・トリップ翻訳(DRTT)に基づくNMT逆例の新しい基準を提案する。
NMTモデルの堅牢性を高めるため,両言語対を構築するためのマスキング言語モデルを提案する。
論文 参考訳(メタデータ) (2022-04-19T06:15:27Z) - Doubly-Trained Adversarial Data Augmentation for Neural Machine
Translation [8.822338727711715]
我々は、モデルに攻撃を与え、ソース側の意味を保存できる敵の強化サンプルを生成する。
実験の結果,これらの逆方向のサンプルはモデルの堅牢性を向上させることがわかった。
論文 参考訳(メタデータ) (2021-10-12T02:23:00Z) - BOSS: Bidirectional One-Shot Synthesis of Adversarial Examples [8.359029046999233]
本稿では,逆数例のワンショット合成を提案する。
入力はスクラッチから合成され、事前訓練されたモデルの出力で任意のソフト予測を誘導する。
本稿では,本フレームワークの汎用性と汎用性を示す。
論文 参考訳(メタデータ) (2021-08-05T17:43:36Z) - Gradient-based Adversarial Attacks against Text Transformers [96.73493433809419]
トランスモデルに対する初の汎用勾配攻撃を提案する。
我々は、ホワイトボックス攻撃が様々な自然言語タスクにおいて最先端の攻撃性能を達成することを実証的に実証する。
論文 参考訳(メタデータ) (2021-04-15T17:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。