論文の概要: Fall of Giants: How popular text-based MLaaS fall against a simple
evasion attack
- arxiv url: http://arxiv.org/abs/2104.05996v1
- Date: Tue, 13 Apr 2021 08:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:17:15.683228
- Title: Fall of Giants: How popular text-based MLaaS fall against a simple
evasion attack
- Title(参考訳): Fall of Giants: テキストベースのMLaaSが単純な回避攻撃に対していかに人気か
- Authors: Luca Pajola and Mauro Conti
- Abstract要約: 我々は"textitZeroWidth attack" (ZeW) と呼ばれる新しいテキスト回避手法を提案する。
私たちのシンプルで効果的な攻撃は、Amazon、Google、IBM、Microsoftなどの「巨人」のMLを欺くことを実証します。
- 参考スコア(独自算出の注目度): 31.425572216297017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increased demand for machine learning applications made companies offer
Machine-Learning-as-a-Service (MLaaS). In MLaaS (a market estimated 8000M USD
by 2025), users pay for well-performing ML models without dealing with the
complicated training procedure. Among MLaaS, text-based applications are the
most popular ones (e.g., language translators). Given this popularity, MLaaS
must provide resiliency to adversarial manipulations. For example, a wrong
translation might lead to a misunderstanding between two parties. In the text
domain, state-of-the-art attacks mainly focus on strategies that leverage ML
models' weaknesses. Unfortunately, not much attention has been given to the
other pipeline' stages, such as the indexing stage (i.e., when a sentence is
converted from a textual to a numerical representation) that, if manipulated,
can significantly affect the final performance of the application.
In this paper, we propose a novel text evasion technique called
"\textit{Zero-Width} attack" (ZeW) that leverages the injection of human
non-readable characters, affecting indexing stage mechanisms. We demonstrate
that our simple yet effective attack deceives MLaaS of "giants" such as Amazon,
Google, IBM, and Microsoft. Our case study, based on the manipulation of
hateful tweets, shows that out of 12 analyzed services, only one is resistant
to our injection strategy. We finally introduce and test a simple \textit{input
validation} defense that can prevent our proposed attack.
- Abstract(参考訳): 機械学習アプリケーションの需要の増加により、企業はMLaaS(Machine-Learning-as-a-Service)を提供している。
mlaas(市場推定で2025年までに8000万米ドル)では、複雑なトレーニング手順に対処せずに、高いパフォーマンスのmlモデルに課金する。
MLaaSの中で、テキストベースのアプリケーションは最も人気のあるもの(例えば、言語翻訳者)である。
この人気を考えれば、MLaaSは敵の操作に対して回復力を提供しなければならない。
例えば、間違った翻訳は、両者の誤解につながる可能性がある。
テキストドメインでは、最先端の攻撃は主にMLモデルの弱点を活用する戦略に焦点を当てている。
残念ながら、インデクシングステージ(テキストから数値表現に変換する場合)など、他のパイプラインのステージにはあまり注目されていない。
本稿では,人間の非可読性文字の注入を活用し,索引付け段階のメカニズムに影響を与える「\textit{zero-width} attack(zew)」と呼ばれる新しいテキスト回避手法を提案する。
私たちの単純な効果的な攻撃は、Amazon、Google、IBM、Microsoftといった“巨人”のMLaaSを騙していることを実証しています。
今回のケーススタディでは、ヘイトフルツイートの操作に基づいて、分析された12のサービスのうち、注入戦略に耐性があるのは1つだけです。
最後に、提案する攻撃を防ぐ単純な \textit{input validation} ディフェンスを導入し、テストします。
関連論文リスト
- Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文 参考訳(メタデータ) (2024-02-26T10:31:45Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Mondrian: Prompt Abstraction Attack Against Large Language Models for
Cheaper API Pricing [19.76564349397695]
文を抽象化するシンプルで簡単な手法である Mondrian を提案し,LLM API の使用コストを削減できる。
その結果,Mondrianはユーザクエリのトークン長を13%から23%に短縮することに成功した。
その結果、迅速な抽象化攻撃により、API開発とデプロイメントのコストを負担することなく、敵が利益を得ることが可能になる。
論文 参考訳(メタデータ) (2023-08-07T13:10:35Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Putting words into the system's mouth: A targeted attack on neural
machine translation using monolingual data poisoning [50.67997309717586]
本稿では、悪意のある敵が、バックトランスレーションを用いて訓練されたシステムのトレーニングセットに、モノリンガルテキストの少量の有毒サンプルを挿入する中毒攻撃を提案する。
このサンプルは、パドリング誤報のような特定の標的となる翻訳行動を引き起こすように設計されている。
有毒な例を作るための2つの方法を示し、トレーニングセットの0.02%にしか満たない少数の事例しか、攻撃を成功させるには不十分であることを示した。
論文 参考訳(メタデータ) (2021-07-12T08:07:09Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。