論文の概要: Fast Adversarial Attacks on Language Models In One GPU Minute
- arxiv url: http://arxiv.org/abs/2402.15570v1
- Date: Fri, 23 Feb 2024 19:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:00:00.010192
- Title: Fast Adversarial Attacks on Language Models In One GPU Minute
- Title(参考訳): GPU1分で言語モデルに対する高速な敵攻撃
- Authors: Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham
Kattakinda, Atoosa Chegini, Soheil Feizi
- Abstract要約: 我々は、言語モデル(LM)のための高速ビームサーチに基づく敵攻撃(BEAST)の新たなクラスを導入する。
BEASTは解釈可能なパラメータを使用し、攻撃者は攻撃速度、成功率、敵のプロンプトの可読性の間でバランスをとることができる。
我々の勾配のない標的攻撃は、1分以内に高い攻撃成功率のLMをジェイルブレイクできる。
- 参考スコア(独自算出の注目度): 49.615024989416355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel class of fast, beam search-based
adversarial attack (BEAST) for Language Models (LMs). BEAST employs
interpretable parameters, enabling attackers to balance between attack speed,
success rate, and the readability of adversarial prompts. The computational
efficiency of BEAST facilitates us to investigate its applications on LMs for
jailbreaking, eliciting hallucinations, and privacy attacks. Our gradient-free
targeted attack can jailbreak aligned LMs with high attack success rates within
one minute. For instance, BEAST can jailbreak Vicuna-7B-v1.5 under one minute
with a success rate of 89% when compared to a gradient-based baseline that
takes over an hour to achieve 70% success rate using a single Nvidia RTX A6000
48GB GPU. Additionally, we discover a unique outcome wherein our untargeted
attack induces hallucinations in LM chatbots. Through human evaluations, we
find that our untargeted attack causes Vicuna-7B-v1.5 to produce ~15% more
incorrect outputs when compared to LM outputs in the absence of our attack. We
also learn that 22% of the time, BEAST causes Vicuna to generate outputs that
are not relevant to the original prompt. Further, we use BEAST to generate
adversarial prompts in a few seconds that can boost the performance of existing
membership inference attacks for LMs. We believe that our fast attack, BEAST,
has the potential to accelerate research in LM security and privacy. Our
codebase is publicly available at https://github.com/vinusankars/BEAST.
- Abstract(参考訳): 本稿では,言語モデル (LM) に対する高速ビームサーチに基づく敵攻撃 (BEAST) の新たなクラスについて紹介する。
BEASTは解釈可能なパラメータを使用し、攻撃者は攻撃速度、成功率、敵のプロンプトの可読性とバランスをとることができる。
BEASTの計算効率は、脱獄、幻覚の誘発、プライバシ攻撃に対するLMの応用を調査するのに役立ちます。
グラデーションフリーのターゲット攻撃は、ldmを1分以内に高い攻撃成功率でアレンジできる。
例えば、BEASTは1分でJailbreak Vicuna-7B-v1.5を実行でき、1つのNvidia RTX A6000 48GB GPUで70%の成功率を達成するのに1時間以上かかる勾配ベースのベースラインと比較して、成功率は89%である。
さらに,目標外の攻撃がlmチャットボットの幻覚を誘発するユニークな結果を見出す。
人体による評価の結果, 標的外攻撃により, Vicuna-7B-v1.5 は攻撃がない場合に LM 出力よりも ~15% 過誤出力を発生させることがわかった。
また、BEASTの22%は、Vicunaが元のプロンプトとは無関係なアウトプットを生成してしまうことを知っています。
さらに、BEASTを用いて、LMの既存のメンバシップ推論攻撃の性能を高めるために、数秒で敵のプロンプトを生成する。
私たちの迅速な攻撃であるBEASTは、LMセキュリティとプライバシの研究を加速する可能性があると考えています。
私たちのコードベースはhttps://github.com/vinusankars/BEASTで公開されています。
関連論文リスト
- ImgTrojan: Jailbreaking Vision-Language Models with ONE Image [40.55590043993117]
視覚言語モデル(VLM)に対する新しいジェイルブレイク攻撃を提案する。
トレーニングデータに有毒な(画像、テキスト)データペアを含めるシナリオが想定されます。
原文のキャプションを悪意のあるジェイルブレイクプロンプトに置き換えることにより、この手法は毒画像を用いてジェイルブレイク攻撃を行うことができる。
論文 参考訳(メタデータ) (2024-03-05T12:21:57Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Robust Prompt Optimization for Defending Language Models Against
Jailbreaking Attacks [19.364674417165908]
本稿では,脱獄攻撃から言語モデルを守るための最初の敵対的目標を提案する。
厳密なプロンプト最適化(RPO)アルゴリズムは、無害な出力を強制するために勾配ベースのトークン最適化を使用する。
RPOは良性使用に小さな影響を与え、適応攻撃で成功し、ブラックボックスモデルに移行することができる。
論文 参考訳(メタデータ) (2024-01-30T18:56:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - Defending Large Language Models Against Jailbreaking Attacks Through
Goal Prioritization [74.9438024948104]
大きな言語モデル(LLM)はその能力の進歩を続けているが、この進歩にはさまざまな安全性リスクが伴っている。
我々は、ジェイルブレイクの成功に寄与する重要な要因を指摘している。
ジェイルブレーキング攻撃に対する対策として,トレーニング段階と推論段階の両方でゴール優先順位付けを統合することを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:42:29Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Apple of Sodom: Hidden Backdoors in Superior Sentence Embeddings via
Contrastive Learning [17.864914834411092]
我々は、最先端の文埋め込みのための最初のバックドアアタックフレームワークであるBadCSEを提示する。
我々は、STSタスクと他の下流タスクの両方でBadCSEを評価した。
論文 参考訳(メタデータ) (2022-10-20T08:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。