論文の概要: Two-in-One: A Model Hijacking Attack Against Text Generation Models
- arxiv url: http://arxiv.org/abs/2305.07406v1
- Date: Fri, 12 May 2023 12:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:09:47.094044
- Title: Two-in-One: A Model Hijacking Attack Against Text Generation Models
- Title(参考訳): 2対1:テキスト生成モデルに対するハイジャック攻撃モデル
- Authors: Wai Man Si and Michael Backes and Yang Zhang and Ahmed Salem
- Abstract要約: 我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
- 参考スコア(独自算出の注目度): 19.826236952700256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning has progressed significantly in various applications ranging
from face recognition to text generation. However, its success has been
accompanied by different attacks. Recently a new attack has been proposed which
raises both accountability and parasitic computing risks, namely the model
hijacking attack. Nevertheless, this attack has only focused on image
classification tasks. In this work, we broaden the scope of this attack to
include text generation and classification models, hence showing its broader
applicability. More concretely, we propose a new model hijacking attack, Ditto,
that can hijack different text classification tasks into multiple generation
ones, e.g., language translation, text summarization, and language modeling. We
use a range of text benchmark datasets such as SST-2, TweetEval, AGnews, QNLI,
and IMDB to evaluate the performance of our attacks. Our results show that by
using Ditto, an adversary can successfully hijack text generation models
without jeopardizing their utility.
- Abstract(参考訳): 機械学習は、顔認識からテキスト生成まで、さまざまなアプリケーションで大きく進歩している。
しかし、その成功には様々な攻撃が伴った。
最近では、説明責任と寄生的コンピューティングのリスク、すなわちモデルハイジャック攻撃を引き起こす新たな攻撃が提案されている。
しかし、この攻撃は画像分類にのみ焦点が当てられている。
本研究では,この攻撃の範囲を広げ,テキスト生成と分類モデルを含めることにより,その幅広い適用性を示す。
より具体的には、異なるテキスト分類タスクを複数の世代(例えば、言語翻訳、テキスト要約、言語モデリング)にハイジャックできる新しいモデルハイジャック攻撃であるdittoを提案する。
私たちは、sst-2、tweeteval、agnews、qnli、imdbなどのテキストベンチマークデータセットを使用して、攻撃のパフォーマンスを評価しました。
この結果から,Dittoを用いることで,テキスト生成モデルのハイジャックを回避できることがわかった。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Natural Backdoor Attack on Text Data [15.35163515187413]
本論文では,NLPモデルに対するテキストバックドア攻撃を提案する。
テキストデータにトリガーを発生させ,修正範囲,人間認識,特殊事例に基づいて,さまざまな種類のトリガーを調査する。
その結果,テキスト分類作業において100%バックドア攻撃の成功率と0.83%の犠牲となる優れた性能を示した。
論文 参考訳(メタデータ) (2020-06-29T16:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。