論文の概要: A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2308.15246v2
- Date: Thu, 22 Feb 2024 09:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:53:04.866310
- Title: A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation
- Title(参考訳): 神経機械翻訳に対する敵意攻撃に対する分類誘導的アプローチ
- Authors: Sahar Sadrizadeh, Ljiljana Dolamic, Pascal Frossard
- Abstract要約: 我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
- 参考スコア(独自算出の注目度): 66.58025084857556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) models have been shown to be vulnerable to
adversarial attacks, wherein carefully crafted perturbations of the input can
mislead the target model. In this paper, we introduce ACT, a novel adversarial
attack framework against NMT systems guided by a classifier. In our attack, the
adversary aims to craft meaning-preserving adversarial examples whose
translations in the target language by the NMT model belong to a different
class than the original translations. Unlike previous attacks, our new approach
has a more substantial effect on the translation by altering the overall
meaning, which then leads to a different class determined by an oracle
classifier. To evaluate the robustness of NMT models to our attack, we propose
enhancements to existing black-box word-replacement-based attacks by
incorporating output translations of the target NMT model and the output logits
of a classifier within the attack process. Extensive experiments, including a
comparison with existing untargeted attacks, show that our attack is
considerably more successful in altering the class of the output translation
and has more effect on the translation. This new paradigm can reveal the
vulnerabilities of NMT systems by focusing on the class of translation rather
than the mere translation quality as studied traditionally.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)モデルは、注意深く作られた入力の摂動がターゲットモデルを誤解させる可能性がある敵の攻撃に対して脆弱であることが示されている。
本稿では,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,NMTモデルによる対象言語への翻訳が本来の翻訳と異なるクラスに属する意味保存的敵例を作成することを目的とした。
以前の攻撃とは異なり、私たちの新しいアプローチは、全体的な意味を変更して翻訳にもっと大きな影響を与え、oracleの分類器によって決定される別のクラスに繋がる。
攻撃に対するNMTモデルの堅牢性を評価するため,ターゲットNMTモデルの出力変換と分類器の出力ロジットをアタックプロセスに組み込むことにより,既存のブラックボックス単語置換攻撃の強化を提案する。
既存の非標的攻撃との比較を含む広範な実験は、我々の攻撃が出力翻訳のクラスを変更することにかなり成功しており、翻訳により多くの効果があることを示している。
この新たなパラダイムは,従来の翻訳品質よりも翻訳のクラスに着目して,NMTシステムの脆弱性を明らかにすることができる。
関連論文リスト
- NMT-Obfuscator Attack: Ignore a sentence in translation with only one word [54.22817040379553]
我々はNMTモデルに対する新たなタイプの敵攻撃を提案する。
我々の攻撃は、NMTモデルに入力の第2部を50%以上のケースで無視させることに成功した。
論文 参考訳(メタデータ) (2024-11-19T12:55:22Z) - Rethinking Targeted Adversarial Attacks For Neural Machine Translation [56.10484905098989]
本報告では,NMTが標的とする敵攻撃に対して,信頼性の高い攻撃結果をもたらす可能性のある新たな設定を提案する。
新しい設定では、敵の例を作成するためのTWGA(Targeted Word Gradient Adversarial Attack)手法を提案する。
実験の結果,提案手法はNMTシステムに対する敵攻撃に対して忠実な攻撃効果をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-07T10:16:06Z) - Machine Translation Models Stand Strong in the Face of Adversarial
Attacks [2.6862667248315386]
本研究は,シークエンス・ツー・シークエンス(seq2seq)モデル,特に機械翻訳モデルに対する敵攻撃の影響に焦点を当てた。
我々は、基本的なテキスト摂動と、勾配に基づく攻撃のようなより高度な戦略を取り入れたアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-10T11:22:59Z) - Targeted Adversarial Attacks against Neural Machine Translation [44.04452616807661]
我々はNMTモデルに対する新たな敵攻撃を提案する。
私たちの攻撃は、75%以上の文の翻訳にキーワードを挿入することに成功しました。
論文 参考訳(メタデータ) (2023-03-02T08:43:30Z) - TransFool: An Adversarial Attack against Neural Machine Translation
Models [49.50163349643615]
敵攻撃に対するニューラルネットワーク翻訳(NMT)モデルの脆弱性を調査し,TransFoolと呼ばれる新たな攻撃アルゴリズムを提案する。
クリーンなサンプルと高いレベルのセマンティックな類似性を保ったソースコード言語で、流動的な逆の例を生成する。
自動的および人的評価に基づいて、TransFoolは、既存の攻撃と比較して成功率、意味的類似性、流布率の改善につながる。
論文 参考訳(メタデータ) (2023-02-02T08:35:34Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Adv-OLM: Generating Textual Adversaries via OLM [2.1012672709024294]
本論文では,Occlusion and Language Models (OLM) のアイデアを現在の美術的攻撃手法に適応させるブラックボックス攻撃手法である Adv-OLM を提案する。
提案手法は,テキスト分類タスクにおいて,他の攻撃方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-21T10:04:56Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。