論文の概要: Imitation Attacks and Defenses for Black-box Machine Translation Systems
- arxiv url: http://arxiv.org/abs/2004.15015v3
- Date: Sun, 3 Jan 2021 19:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:41:31.773420
- Title: Imitation Attacks and Defenses for Black-box Machine Translation Systems
- Title(参考訳): ブラックボックス機械翻訳システムの模倣攻撃と防御
- Authors: Eric Wallace, Mitchell Stern, Dawn Song
- Abstract要約: ブラックボックス機械翻訳(MT)システムは高い商業価値を持ち、エラーはコストがかかる。
MTシステムはモノリンガル文を問合せし,その出力を模倣する訓練モデルを用いて盗むことができることを示す。
本稿では,模倣モデルの最適化を誤指示するために,翻訳出力を変更するディフェンスを提案する。
- 参考スコア(独自算出の注目度): 86.92681013449682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversaries may look to steal or attack black-box NLP systems, either for
financial gain or to exploit model errors. One setting of particular interest
is machine translation (MT), where models have high commercial value and errors
can be costly. We investigate possible exploits of black-box MT systems and
explore a preliminary defense against such threats. We first show that MT
systems can be stolen by querying them with monolingual sentences and training
models to imitate their outputs. Using simulated experiments, we demonstrate
that MT model stealing is possible even when imitation models have different
input data or architectures than their target models. Applying these ideas, we
train imitation models that reach within 0.6 BLEU of three production MT
systems on both high-resource and low-resource language pairs. We then leverage
the similarity of our imitation models to transfer adversarial examples to the
production systems. We use gradient-based attacks that expose inputs which lead
to semantically-incorrect translations, dropped content, and vulgar model
outputs. To mitigate these vulnerabilities, we propose a defense that modifies
translation outputs in order to misdirect the optimization of imitation models.
This defense degrades the adversary's BLEU score and attack success rate at
some cost in the defender's BLEU and inference speed.
- Abstract(参考訳): 敵はブラックボックスのNLPシステムを盗んだり攻撃したりし、金銭的利益やモデルエラーを悪用したりすることができる。
特に興味深いのが機械翻訳(MT)であり、高い商業価値とエラーのコストがかかるモデルである。
我々はブラックボックスMTシステムの利用の可能性を調査し、そのような脅威に対する予備的な防御策を探る。
まず、MTシステムはモノリンガル文を問合せし、その出力を模倣する訓練モデルを用いて盗むことができることを示す。
シミュレーション実験により,模倣モデルが対象モデルと異なる入力データやアーキテクチャを持つ場合でも,MTモデルの盗みが可能であることを示す。
これらのアイデアを応用して、3つのMTシステムの0.6BLEU以内に達する模倣モデルを、高リソースと低リソースの言語ペアで訓練する。
そして、模倣モデルの類似性を利用して、逆の例をプロダクションシステムに転送します。
グラデーションに基づく攻撃は、意味的に不正確な翻訳、コンテンツのドロップ、そして下品なモデルの出力につながる入力を露出する。
これらの脆弱性を軽減するために,模倣モデルの最適化を誤指示するために,翻訳出力を変更するディフェンスを提案する。
この防御は敵のブレウスコアを低下させ、守備側のブレウと推論速度を犠牲にして攻撃成功率を低下させる。
関連論文リスト
- Confidence Elicitation: A New Attack Vector for Large Language Models [32.22764815262567]
数十億のパラメータを持つ大規模言語モデル(LLM)は、以前の小さな言語と同様、敵攻撃に苦しむ。
クローズドソースモデルの導入により、生成された出力とは別に、モデルに関する情報は得られない。
これは、現在のブラックボックス攻撃が最終予測を利用して攻撃が成功したかどうかを検出することを意味する。
本研究は,ブラックボックスアクセスのみを分類した状態で,出力確率を用いた攻撃誘導の可能性について検討し,実証する。
論文 参考訳(メタデータ) (2025-02-07T04:07:36Z) - NMT-Obfuscator Attack: Ignore a sentence in translation with only one word [54.22817040379553]
我々はNMTモデルに対する新たなタイプの敵攻撃を提案する。
我々の攻撃は、NMTモデルに入力の第2部を50%以上のケースで無視させることに成功した。
論文 参考訳(メタデータ) (2024-11-19T12:55:22Z) - A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation [66.58025084857556]
我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:12:53Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - TransFool: An Adversarial Attack against Neural Machine Translation
Models [49.50163349643615]
敵攻撃に対するニューラルネットワーク翻訳(NMT)モデルの脆弱性を調査し,TransFoolと呼ばれる新たな攻撃アルゴリズムを提案する。
クリーンなサンプルと高いレベルのセマンティックな類似性を保ったソースコード言語で、流動的な逆の例を生成する。
自動的および人的評価に基づいて、TransFoolは、既存の攻撃と比較して成功率、意味的類似性、流布率の改善につながる。
論文 参考訳(メタデータ) (2023-02-02T08:35:34Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Masked Adversarial Generation for Neural Machine Translation [0.0]
我々は,言語モデルに基づいて逆生成器を訓練することにより,モデルを攻撃することを学ぶ。
実験の結果,機械翻訳モデルの堅牢性は向上し,競合する手法よりも高速であることがわかった。
論文 参考訳(メタデータ) (2021-09-01T14:56:37Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。