論文の概要: Fall of Giants: How popular text-based MLaaS fall against a simple
evasion attack
- arxiv url: http://arxiv.org/abs/2104.05996v1
- Date: Tue, 13 Apr 2021 08:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:17:15.683228
- Title: Fall of Giants: How popular text-based MLaaS fall against a simple
evasion attack
- Title(参考訳): Fall of Giants: テキストベースのMLaaSが単純な回避攻撃に対していかに人気か
- Authors: Luca Pajola and Mauro Conti
- Abstract要約: 我々は"textitZeroWidth attack" (ZeW) と呼ばれる新しいテキスト回避手法を提案する。
私たちのシンプルで効果的な攻撃は、Amazon、Google、IBM、Microsoftなどの「巨人」のMLを欺くことを実証します。
- 参考スコア(独自算出の注目度): 31.425572216297017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increased demand for machine learning applications made companies offer
Machine-Learning-as-a-Service (MLaaS). In MLaaS (a market estimated 8000M USD
by 2025), users pay for well-performing ML models without dealing with the
complicated training procedure. Among MLaaS, text-based applications are the
most popular ones (e.g., language translators). Given this popularity, MLaaS
must provide resiliency to adversarial manipulations. For example, a wrong
translation might lead to a misunderstanding between two parties. In the text
domain, state-of-the-art attacks mainly focus on strategies that leverage ML
models' weaknesses. Unfortunately, not much attention has been given to the
other pipeline' stages, such as the indexing stage (i.e., when a sentence is
converted from a textual to a numerical representation) that, if manipulated,
can significantly affect the final performance of the application.
In this paper, we propose a novel text evasion technique called
"\textit{Zero-Width} attack" (ZeW) that leverages the injection of human
non-readable characters, affecting indexing stage mechanisms. We demonstrate
that our simple yet effective attack deceives MLaaS of "giants" such as Amazon,
Google, IBM, and Microsoft. Our case study, based on the manipulation of
hateful tweets, shows that out of 12 analyzed services, only one is resistant
to our injection strategy. We finally introduce and test a simple \textit{input
validation} defense that can prevent our proposed attack.
- Abstract(参考訳): 機械学習アプリケーションの需要の増加により、企業はMLaaS(Machine-Learning-as-a-Service)を提供している。
mlaas(市場推定で2025年までに8000万米ドル)では、複雑なトレーニング手順に対処せずに、高いパフォーマンスのmlモデルに課金する。
MLaaSの中で、テキストベースのアプリケーションは最も人気のあるもの(例えば、言語翻訳者)である。
この人気を考えれば、MLaaSは敵の操作に対して回復力を提供しなければならない。
例えば、間違った翻訳は、両者の誤解につながる可能性がある。
テキストドメインでは、最先端の攻撃は主にMLモデルの弱点を活用する戦略に焦点を当てている。
残念ながら、インデクシングステージ(テキストから数値表現に変換する場合)など、他のパイプラインのステージにはあまり注目されていない。
本稿では,人間の非可読性文字の注入を活用し,索引付け段階のメカニズムに影響を与える「\textit{zero-width} attack(zew)」と呼ばれる新しいテキスト回避手法を提案する。
私たちの単純な効果的な攻撃は、Amazon、Google、IBM、Microsoftといった“巨人”のMLaaSを騙していることを実証しています。
今回のケーススタディでは、ヘイトフルツイートの操作に基づいて、分析された12のサービスのうち、注入戦略に耐性があるのは1つだけです。
最後に、提案する攻撃を防ぐ単純な \textit{input validation} ディフェンスを導入し、テストします。
関連論文リスト
- Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。
本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:39:31Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文 参考訳(メタデータ) (2024-02-26T10:31:45Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Mondrian: Prompt Abstraction Attack Against Large Language Models for
Cheaper API Pricing [19.76564349397695]
文を抽象化するシンプルで簡単な手法である Mondrian を提案し,LLM API の使用コストを削減できる。
その結果,Mondrianはユーザクエリのトークン長を13%から23%に短縮することに成功した。
その結果、迅速な抽象化攻撃により、API開発とデプロイメントのコストを負担することなく、敵が利益を得ることが可能になる。
論文 参考訳(メタデータ) (2023-08-07T13:10:35Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。