論文の概要: Fast Adversarial Attacks on Language Models In One GPU Minute
- arxiv url: http://arxiv.org/abs/2402.15570v1
- Date: Fri, 23 Feb 2024 19:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:00:00.010192
- Title: Fast Adversarial Attacks on Language Models In One GPU Minute
- Title(参考訳): GPU1分で言語モデルに対する高速な敵攻撃
- Authors: Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham
Kattakinda, Atoosa Chegini, Soheil Feizi
- Abstract要約: 我々は、言語モデル(LM)のための高速ビームサーチに基づく敵攻撃(BEAST)の新たなクラスを導入する。
BEASTは解釈可能なパラメータを使用し、攻撃者は攻撃速度、成功率、敵のプロンプトの可読性の間でバランスをとることができる。
我々の勾配のない標的攻撃は、1分以内に高い攻撃成功率のLMをジェイルブレイクできる。
- 参考スコア(独自算出の注目度): 49.615024989416355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel class of fast, beam search-based
adversarial attack (BEAST) for Language Models (LMs). BEAST employs
interpretable parameters, enabling attackers to balance between attack speed,
success rate, and the readability of adversarial prompts. The computational
efficiency of BEAST facilitates us to investigate its applications on LMs for
jailbreaking, eliciting hallucinations, and privacy attacks. Our gradient-free
targeted attack can jailbreak aligned LMs with high attack success rates within
one minute. For instance, BEAST can jailbreak Vicuna-7B-v1.5 under one minute
with a success rate of 89% when compared to a gradient-based baseline that
takes over an hour to achieve 70% success rate using a single Nvidia RTX A6000
48GB GPU. Additionally, we discover a unique outcome wherein our untargeted
attack induces hallucinations in LM chatbots. Through human evaluations, we
find that our untargeted attack causes Vicuna-7B-v1.5 to produce ~15% more
incorrect outputs when compared to LM outputs in the absence of our attack. We
also learn that 22% of the time, BEAST causes Vicuna to generate outputs that
are not relevant to the original prompt. Further, we use BEAST to generate
adversarial prompts in a few seconds that can boost the performance of existing
membership inference attacks for LMs. We believe that our fast attack, BEAST,
has the potential to accelerate research in LM security and privacy. Our
codebase is publicly available at https://github.com/vinusankars/BEAST.
- Abstract(参考訳): 本稿では,言語モデル (LM) に対する高速ビームサーチに基づく敵攻撃 (BEAST) の新たなクラスについて紹介する。
BEASTは解釈可能なパラメータを使用し、攻撃者は攻撃速度、成功率、敵のプロンプトの可読性とバランスをとることができる。
BEASTの計算効率は、脱獄、幻覚の誘発、プライバシ攻撃に対するLMの応用を調査するのに役立ちます。
グラデーションフリーのターゲット攻撃は、ldmを1分以内に高い攻撃成功率でアレンジできる。
例えば、BEASTは1分でJailbreak Vicuna-7B-v1.5を実行でき、1つのNvidia RTX A6000 48GB GPUで70%の成功率を達成するのに1時間以上かかる勾配ベースのベースラインと比較して、成功率は89%である。
さらに,目標外の攻撃がlmチャットボットの幻覚を誘発するユニークな結果を見出す。
人体による評価の結果, 標的外攻撃により, Vicuna-7B-v1.5 は攻撃がない場合に LM 出力よりも ~15% 過誤出力を発生させることがわかった。
また、BEASTの22%は、Vicunaが元のプロンプトとは無関係なアウトプットを生成してしまうことを知っています。
さらに、BEASTを用いて、LMの既存のメンバシップ推論攻撃の性能を高めるために、数秒で敵のプロンプトを生成する。
私たちの迅速な攻撃であるBEASTは、LMセキュリティとプライバシの研究を加速する可能性があると考えています。
私たちのコードベースはhttps://github.com/vinusankars/BEASTで公開されています。
関連論文リスト
- Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。
本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:39:31Z) - FLRT: Fluent Student-Teacher Redteaming [0.0]
我々は既存のアルゴリズムを改良し、安全に配慮したモデルに対する強力で流動的な攻撃を開発する。
本手法は, 害虫モデルに毒素をエミュレートする新しい蒸留法を中心にした手法である。
Llama-2-7B, Llama-3-8B, Vicuna-7Bの攻撃成功率は93$%であり, モデルによるパープレキシティは33$である。
論文 参考訳(メタデータ) (2024-07-24T17:23:18Z) - ImgTrojan: Jailbreaking Vision-Language Models with ONE Image [40.55590043993117]
視覚言語モデル(VLM)に対する新しいジェイルブレイク攻撃を提案する。
トレーニングデータに有毒な(画像、テキスト)データペアを含めるシナリオが想定されます。
原文のキャプションを悪意のあるジェイルブレイクプロンプトに置き換えることにより、この手法は毒画像を用いてジェイルブレイク攻撃を行うことができる。
論文 参考訳(メタデータ) (2024-03-05T12:21:57Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization [98.18718484152595]
本研究は,学習段階と推論段階の両方において,目標の優先順位付けを統合することで,支援と安全性の確保という目標との本質的な対立に対処することを提案する。
我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。
論文 参考訳(メタデータ) (2023-11-15T16:42:29Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Apple of Sodom: Hidden Backdoors in Superior Sentence Embeddings via
Contrastive Learning [17.864914834411092]
我々は、最先端の文埋め込みのための最初のバックドアアタックフレームワークであるBadCSEを提示する。
我々は、STSタスクと他の下流タスクの両方でBadCSEを評価した。
論文 参考訳(メタデータ) (2022-10-20T08:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。