論文の概要: A Targeted Attack on Black-Box Neural Machine Translation with Parallel
Data Poisoning
- arxiv url: http://arxiv.org/abs/2011.00675v2
- Date: Mon, 15 Feb 2021 05:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:33:38.892196
- Title: A Targeted Attack on Black-Box Neural Machine Translation with Parallel
Data Poisoning
- Title(参考訳): 並列データ中毒によるブラックボックスニューラルマシン翻訳のターゲット攻撃
- Authors: Chang Xu, Jun Wang, Yuqing Tang, Francisco Guzman, Benjamin I. P.
Rubinstein, Trevor Cohn
- Abstract要約: ブラックボックスNMTシステムに対する標的攻撃は、並列トレーニングデータのごく一部を毒殺することで実現可能であることを示す。
この攻撃は、システムのトレーニングデータを形成するために、クローリングされたWebドキュメントのターゲットの破損によって現実的に実現可能であることを示す。
大量の並列データで訓練された最先端のシステムでさえ、この攻撃は驚くほど低予算で(50%以上の成功率で)成功している。
- 参考スコア(独自算出の注目度): 60.826628282900955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As modern neural machine translation (NMT) systems have been widely deployed,
their security vulnerabilities require close scrutiny. Most recently, NMT
systems have been found vulnerable to targeted attacks which cause them to
produce specific, unsolicited, and even harmful translations. These attacks are
usually exploited in a white-box setting, where adversarial inputs causing
targeted translations are discovered for a known target system. However, this
approach is less viable when the target system is black-box and unknown to the
adversary (e.g., secured commercial systems). In this paper, we show that
targeted attacks on black-box NMT systems are feasible, based on poisoning a
small fraction of their parallel training data. We show that this attack can be
realised practically via targeted corruption of web documents crawled to form
the system's training data. We then analyse the effectiveness of the targeted
poisoning in two common NMT training scenarios: the from-scratch training and
the pre-train & fine-tune paradigm. Our results are alarming: even on the
state-of-the-art systems trained with massive parallel data (tens of millions),
the attacks are still successful (over 50% success rate) under surprisingly low
poisoning budgets (e.g., 0.006%). Lastly, we discuss potential defences to
counter such attacks.
- Abstract(参考訳): 現代のニューラルネットワーク翻訳(NMT)システムが広くデプロイされているため、セキュリティ上の脆弱性は精査が必要である。
最近では、NMTシステムは標的の攻撃に弱いことが判明し、特定の、孤立せず、有害な翻訳も生成している。
これらの攻撃は、通常ホワイトボックス設定で悪用され、既知のターゲットシステムでターゲットの翻訳を引き起こす敵の入力が発見される。
しかし、ターゲットシステムがブラックボックスであり、敵(例えば安全な商用システム)に未知である場合、このアプローチは実現不可能である。
本稿では, ブラックボックスNMTシステムに対する標的攻撃が, 並列トレーニングデータのごく一部を汚染することにより実現可能であることを示す。
この攻撃は、システムのトレーニングデータを形成するためにクロールされたwebドキュメントをターゲットとする腐敗によって実現可能であることを実証する。
次に,NMTトレーニングの2つの一般的なシナリオにおいて,標的中毒の有効性について分析した。
大規模な並列データ(数千万)で訓練された最先端のシステムでさえ、この攻撃は驚くほど低い毒性予算(例えば0.006%)の下で成功(50%以上の成功率)している。
最後に、このような攻撃に対抗するための潜在的な防御について論じる。
関連論文リスト
- Rethinking Targeted Adversarial Attacks For Neural Machine Translation [56.10484905098989]
本報告では,NMTが標的とする敵攻撃に対して,信頼性の高い攻撃結果をもたらす可能性のある新たな設定を提案する。
新しい設定では、敵の例を作成するためのTWGA(Targeted Word Gradient Adversarial Attack)手法を提案する。
実験の結果,提案手法はNMTシステムに対する敵攻撃に対して忠実な攻撃効果をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-07T10:16:06Z) - A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation [66.58025084857556]
我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:12:53Z) - Adversarial Attacks are a Surprisingly Strong Baseline for Poisoning
Few-Shot Meta-Learners [28.468089304148453]
これにより、システムの学習アルゴリズムを騙すような、衝突する入力セットを作れます。
ホワイトボックス環境では、これらの攻撃は非常に成功しており、ターゲットモデルの予測が偶然よりも悪化する可能性があることを示す。
攻撃による「過度な対応」と、攻撃が生成されたモデルと攻撃が転送されたモデルとのミスマッチという2つの仮説を探索する。
論文 参考訳(メタデータ) (2022-11-23T14:55:44Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Traceback of Data Poisoning Attacks in Neural Networks [24.571668412312196]
深層ニューラルネットワークに対する毒物攻撃のための法医学的トレースバックツールの開発における当社の取り組みについて述べる。
学習サンプルをトリムする新たな反復的クラスタリングおよびプルーニングソリューションを提案する。
筆者らは,3種類の汚泥(バックドア)中毒と3種類のクリーンラベル中毒に対して,本システムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2021-10-13T17:39:18Z) - Putting words into the system's mouth: A targeted attack on neural
machine translation using monolingual data poisoning [50.67997309717586]
本稿では、悪意のある敵が、バックトランスレーションを用いて訓練されたシステムのトレーニングセットに、モノリンガルテキストの少量の有毒サンプルを挿入する中毒攻撃を提案する。
このサンプルは、パドリング誤報のような特定の標的となる翻訳行動を引き起こすように設計されている。
有毒な例を作るための2つの方法を示し、トレーニングセットの0.02%にしか満たない少数の事例しか、攻撃を成功させるには不十分であることを示した。
論文 参考訳(メタデータ) (2021-07-12T08:07:09Z) - Data Poisoning Attacks on Regression Learning and Corresponding Defenses [0.0]
逆データ中毒は機械学習に対する効果的な攻撃であり、トレーニングデータセットに有毒データを導入することでモデルの完全性を脅かす。
データ中毒攻撃が生産システムに脅威を与え、新たなブラックボックス攻撃をもたらす現実的なシナリオを提示する。
その結果, 残留剤の平均二乗誤差(MSE)は, わずか2%の毒素を挿入することにより150パーセントに増加することがわかった。
論文 参考訳(メタデータ) (2020-09-15T12:14:54Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。