Fugu-MT 論文翻訳(概要): Fall of Giants: How popular text-based MLaaS fall against a simple evasion attack

論文の概要: Fall of Giants: How popular text-based MLaaS fall against a simple evasion attack

arxiv url: http://arxiv.org/abs/2104.05996v1
Date: Tue, 13 Apr 2021 08:01:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-14 13:17:15.683228
Title: Fall of Giants: How popular text-based MLaaS fall against a simple evasion attack
Title（参考訳）: Fall of Giants: テキストベースのMLaaSが単純な回避攻撃に対していかに人気か
Authors: Luca Pajola and Mauro Conti
Abstract要約: 我々は"textitZeroWidth attack" (ZeW) と呼ばれる新しいテキスト回避手法を提案する。私たちのシンプルで効果的な攻撃は、Amazon、Google、IBM、Microsoftなどの「巨人」のMLを欺くことを実証します。
参考スコア（独自算出の注目度）: 31.425572216297017
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increased demand for machine learning applications made companies offer Machine-Learning-as-a-Service (MLaaS). In MLaaS (a market estimated 8000M USD by 2025), users pay for well-performing ML models without dealing with the complicated training procedure. Among MLaaS, text-based applications are the most popular ones (e.g., language translators). Given this popularity, MLaaS must provide resiliency to adversarial manipulations. For example, a wrong translation might lead to a misunderstanding between two parties. In the text domain, state-of-the-art attacks mainly focus on strategies that leverage ML models' weaknesses. Unfortunately, not much attention has been given to the other pipeline' stages, such as the indexing stage (i.e., when a sentence is converted from a textual to a numerical representation) that, if manipulated, can significantly affect the final performance of the application. In this paper, we propose a novel text evasion technique called "\textit{Zero-Width} attack" (ZeW) that leverages the injection of human non-readable characters, affecting indexing stage mechanisms. We demonstrate that our simple yet effective attack deceives MLaaS of "giants" such as Amazon, Google, IBM, and Microsoft. Our case study, based on the manipulation of hateful tweets, shows that out of 12 analyzed services, only one is resistant to our injection strategy. We finally introduce and test a simple \textit{input validation} defense that can prevent our proposed attack.
Abstract（参考訳）: 機械学習アプリケーションの需要の増加により、企業はMLaaS(Machine-Learning-as-a-Service)を提供している。 mlaas(市場推定で2025年までに8000万米ドル)では、複雑なトレーニング手順に対処せずに、高いパフォーマンスのmlモデルに課金する。 MLaaSの中で、テキストベースのアプリケーションは最も人気のあるもの(例えば、言語翻訳者)である。この人気を考えれば、MLaaSは敵の操作に対して回復力を提供しなければならない。例えば、間違った翻訳は、両者の誤解につながる可能性がある。テキストドメインでは、最先端の攻撃は主にMLモデルの弱点を活用する戦略に焦点を当てている。残念ながら、インデクシングステージ(テキストから数値表現に変換する場合)など、他のパイプラインのステージにはあまり注目されていない。本稿では,人間の非可読性文字の注入を活用し,索引付け段階のメカニズムに影響を与える「\textit{zero-width} attack(zew)」と呼ばれる新しいテキスト回避手法を提案する。私たちの単純な効果的な攻撃は、Amazon、Google、IBM、Microsoftといった“巨人”のMLaaSを騙していることを実証しています。今回のケーススタディでは、ヘイトフルツイートの操作に基づいて、分析された12のサービスのうち、注入戦略に耐性があるのは1つだけです。最後に、提案する攻撃を防ぐ単純な \textit{input validation} ディフェンスを導入し、テストします。

関連論文リスト

BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models [79.36881186707413]
マルチモーダル大言語モデル(MLLM)はマルチモーダル情報を処理し、画像テキスト入力に対する応答を生成する。 MLLMは、細調整なしでプラグイン・アンド・プレイを通じて、自律運転や診断などの多様なマルチモーダルアプリケーションに組み込まれている。 MLLMに対する最初のトークンレベルのバックドア攻撃であるBadTokenを提案する。
論文参考訳（メタデータ） (2025-03-20T10:39:51Z)
An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文参考訳（メタデータ） (2024-10-14T17:39:31Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文参考訳（メタデータ） (2024-02-26T10:31:45Z)
Round Trip Translation Defence against Large Language Model Jailbreaking Attacks [11.593052831056841]
本研究では,大規模言語モデルに対する社会工学的攻撃から守るために設計された,最初のアルゴリズムを提案する。我々の防衛は、PAIR(Prompt Automatic Iterative Refinement)攻撃の70%以上を軽減できた。また、MathsAttackを緩和し、攻撃成功率を約40%削減した最初の試みです。
論文参考訳（メタデータ） (2024-02-21T03:59:52Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
Mondrian: Prompt Abstraction Attack Against Large Language Models for Cheaper API Pricing [19.76564349397695]
文を抽象化するシンプルで簡単な手法である Mondrian を提案し,LLM API の使用コストを削減できる。その結果,Mondrianはユーザクエリのトークン長を13%から23%に短縮することに成功した。その結果、迅速な抽象化攻撃により、API開発とデプロイメントのコストを負担することなく、敵が利益を得ることが可能になる。
論文参考訳（メタデータ） (2023-08-07T13:10:35Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)
Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文参考訳（メタデータ） (2023-05-12T12:13:27Z)
Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文参考訳（メタデータ） (2021-04-16T14:37:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。