論文の概要: Rethinking Targeted Adversarial Attacks For Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2407.05319v1
- Date: Sun, 7 Jul 2024 10:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 20:17:13.045346
- Title: Rethinking Targeted Adversarial Attacks For Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のためのターゲットの敵攻撃の再考
- Authors: Junjie Wu, Lemao Liu, Wei Bi, Dit-Yan Yeung,
- Abstract要約: 本報告では,NMTが標的とする敵攻撃に対して,信頼性の高い攻撃結果をもたらす可能性のある新たな設定を提案する。
新しい設定では、敵の例を作成するためのTWGA(Targeted Word Gradient Adversarial Attack)手法を提案する。
実験の結果,提案手法はNMTシステムに対する敵攻撃に対して忠実な攻撃効果をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 56.10484905098989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeted adversarial attacks are widely used to evaluate the robustness of neural machine translation systems. Unfortunately, this paper first identifies a critical issue in the existing settings of NMT targeted adversarial attacks, where their attacking results are largely overestimated. To this end, this paper presents a new setting for NMT targeted adversarial attacks that could lead to reliable attacking results. Under the new setting, it then proposes a Targeted Word Gradient adversarial Attack (TWGA) method to craft adversarial examples. Experimental results demonstrate that our proposed setting could provide faithful attacking results for targeted adversarial attacks on NMT systems, and the proposed TWGA method can effectively attack such victim NMT systems. In-depth analyses on a large-scale dataset further illustrate some valuable findings. 1 Our code and data are available at https://github.com/wujunjie1998/TWGA.
- Abstract(参考訳): ニューラルネットワーク翻訳システムの堅牢性を評価するために、標的となる敵攻撃が広く用いられている。
残念なことに,本論文では,NMTを標的とした敵攻撃の既存の設定において,攻撃結果の過大評価を行う上で重要な課題を最初に挙げる。
そこで本研究では,NMTを標的とした敵攻撃に対して,信頼性の高い攻撃結果をもたらす可能性のある新たな設定を提案する。
新しい設定では、敵の例を作成するためのTWGA(Targeted Word Gradient Adversarial Attack)手法を提案する。
実験により,提案手法はNMTシステムに対する敵攻撃に対して忠実な攻撃効果が得られ,TWGA法はこれらのNMTシステムに対して効果的に攻撃できることが示された。
大規模データセットの詳細な分析により、さらに重要な発見が示されている。
コードとデータはhttps://github.com/wujunjie1998/TWGA.orgで公開されています。
関連論文リスト
- A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation [66.58025084857556]
我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:12:53Z) - Targeted Adversarial Attacks against Neural Machine Translation [44.04452616807661]
我々はNMTモデルに対する新たな敵攻撃を提案する。
私たちの攻撃は、75%以上の文の翻訳にキーワードを挿入することに成功しました。
論文 参考訳(メタデータ) (2023-03-02T08:43:30Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Evaluation of Neural Networks Defenses and Attacks using NDCG and
Reciprocal Rank Metrics [6.6389732792316]
分類タスクにおけるニューラルネットワークの出力に対する攻撃効果、防衛効果の回復効果を特に測定するために設計された2つの指標を示す。
正規化された累積ゲインと、情報検索文献で使用される相互ランクの指標に着想を得て、ニューラルネットワーク予測を結果のランクリストとして扱う。
一般的な分類指標と比較すると,提案指標は優れた情報的・独特性を示す。
論文 参考訳(メタデータ) (2022-01-10T12:54:45Z) - A Targeted Attack on Black-Box Neural Machine Translation with Parallel
Data Poisoning [60.826628282900955]
ブラックボックスNMTシステムに対する標的攻撃は、並列トレーニングデータのごく一部を毒殺することで実現可能であることを示す。
この攻撃は、システムのトレーニングデータを形成するために、クローリングされたWebドキュメントのターゲットの破損によって現実的に実現可能であることを示す。
大量の並列データで訓練された最先端のシステムでさえ、この攻撃は驚くほど低予算で(50%以上の成功率で)成功している。
論文 参考訳(メタデータ) (2020-11-02T01:52:46Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Challenging the adversarial robustness of DNNs based on error-correcting
output codes [33.46319608673487]
ECOCベースのネットワークは、小さな逆方向の摂動を導入することで、非常に容易に攻撃できる。
敵の例は、予測対象クラスの高い確率を達成するために、このような方法で生成することができる。
論文 参考訳(メタデータ) (2020-03-26T12:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。