Fugu-MT 論文翻訳(概要): Fast Adversarial Attacks on Language Models In One GPU Minute

論文の概要: Fast Adversarial Attacks on Language Models In One GPU Minute

arxiv url: http://arxiv.org/abs/2402.15570v1
Date: Fri, 23 Feb 2024 19:12:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 18:00:00.010192
Title: Fast Adversarial Attacks on Language Models In One GPU Minute
Title（参考訳）: GPU1分で言語モデルに対する高速な敵攻撃
Authors: Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini, Soheil Feizi
Abstract要約: 我々は、言語モデル(LM)のための高速ビームサーチに基づく敵攻撃(BEAST)の新たなクラスを導入する。 BEASTは解釈可能なパラメータを使用し、攻撃者は攻撃速度、成功率、敵のプロンプトの可読性の間でバランスをとることができる。我々の勾配のない標的攻撃は、1分以内に高い攻撃成功率のLMをジェイルブレイクできる。
参考スコア（独自算出の注目度）: 49.615024989416355
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce a novel class of fast, beam search-based adversarial attack (BEAST) for Language Models (LMs). BEAST employs interpretable parameters, enabling attackers to balance between attack speed, success rate, and the readability of adversarial prompts. The computational efficiency of BEAST facilitates us to investigate its applications on LMs for jailbreaking, eliciting hallucinations, and privacy attacks. Our gradient-free targeted attack can jailbreak aligned LMs with high attack success rates within one minute. For instance, BEAST can jailbreak Vicuna-7B-v1.5 under one minute with a success rate of 89% when compared to a gradient-based baseline that takes over an hour to achieve 70% success rate using a single Nvidia RTX A6000 48GB GPU. Additionally, we discover a unique outcome wherein our untargeted attack induces hallucinations in LM chatbots. Through human evaluations, we find that our untargeted attack causes Vicuna-7B-v1.5 to produce ~15% more incorrect outputs when compared to LM outputs in the absence of our attack. We also learn that 22% of the time, BEAST causes Vicuna to generate outputs that are not relevant to the original prompt. Further, we use BEAST to generate adversarial prompts in a few seconds that can boost the performance of existing membership inference attacks for LMs. We believe that our fast attack, BEAST, has the potential to accelerate research in LM security and privacy. Our codebase is publicly available at https://github.com/vinusankars/BEAST.
Abstract（参考訳）: 本稿では,言語モデル (LM) に対する高速ビームサーチに基づく敵攻撃 (BEAST) の新たなクラスについて紹介する。 BEASTは解釈可能なパラメータを使用し、攻撃者は攻撃速度、成功率、敵のプロンプトの可読性とバランスをとることができる。 BEASTの計算効率は、脱獄、幻覚の誘発、プライバシ攻撃に対するLMの応用を調査するのに役立ちます。グラデーションフリーのターゲット攻撃は、ldmを1分以内に高い攻撃成功率でアレンジできる。例えば、BEASTは1分でJailbreak Vicuna-7B-v1.5を実行でき、1つのNvidia RTX A6000 48GB GPUで70%の成功率を達成するのに1時間以上かかる勾配ベースのベースラインと比較して、成功率は89%である。さらに,目標外の攻撃がlmチャットボットの幻覚を誘発するユニークな結果を見出す。人体による評価の結果, 標的外攻撃により, Vicuna-7B-v1.5 は攻撃がない場合に LM 出力よりも ~15% 過誤出力を発生させることがわかった。また、BEASTの22%は、Vicunaが元のプロンプトとは無関係なアウトプットを生成してしまうことを知っています。さらに、BEASTを用いて、LMの既存のメンバシップ推論攻撃の性能を高めるために、数秒で敵のプロンプトを生成する。私たちの迅速な攻撃であるBEASTは、LMセキュリティとプライバシの研究を加速する可能性があると考えています。私たちのコードベースはhttps://github.com/vinusankars/BEASTで公開されています。

関連論文リスト

Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models [19.856128742435814]
本稿では,新たなタイプの推論コスト攻撃("bit-flip inference cost attack"と呼ばれる)を導入する。具体的には,モデルパラメータの臨界ビットを効果的にフリップする,シンプルで効果的な手法(BitHydraと呼ばれる)を設計する。たった4つの検索サンプルと3ビットのフリップで、BitHydraは100%のテストプロンプトを最大生成時間まで強制することができる。
論文参考訳（メタデータ） (2025-05-22T13:36:00Z)
Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs [28.75283403986172]
大規模言語モデル(LLM)は、プロンプトベースの攻撃に対して脆弱であり、有害なコンテンツや機密情報を生成する。本稿では,5 つの攻撃ベンチマークにおいて,$mathbf14$ のオープンソース LLM に対する効果的なインジェクション攻撃について検討する。
論文参考訳（メタデータ） (2025-05-20T13:50:43Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文参考訳（メタデータ） (2024-10-14T17:39:31Z)
FLRT: Fluent Student-Teacher Redteaming [0.0]
我々は既存のアルゴリズムを改良し、安全に配慮したモデルに対する強力で流動的な攻撃を開発する。本手法は, 害虫モデルに毒素をエミュレートする新しい蒸留法を中心にした手法である。 Llama-2-7B, Llama-3-8B, Vicuna-7Bの攻撃成功率は93$%であり, モデルによるパープレキシティは33$である。
論文参考訳（メタデータ） (2024-07-24T17:23:18Z)
ImgTrojan: Jailbreaking Vision-Language Models with ONE Image [40.55590043993117]
視覚言語モデル(VLM)に対する新しいジェイルブレイク攻撃を提案する。トレーニングデータに有毒な(画像、テキスト)データペアを含めるシナリオが想定されます。原文のキャプションを悪意のあるジェイルブレイクプロンプトに置き換えることにより、この手法は毒画像を用いてジェイルブレイク攻撃を行うことができる。
論文参考訳（メタデータ） (2024-03-05T12:21:57Z)
Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文参考訳（メタデータ） (2023-12-31T06:43:36Z)
Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization [98.18718484152595]
本研究は,学習段階と推論段階の両方において,目標の優先順位付けを統合することで,支援と安全性の確保という目標との本質的な対立に対処することを提案する。我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。
論文参考訳（メタデータ） (2023-11-15T16:42:29Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Apple of Sodom: Hidden Backdoors in Superior Sentence Embeddings via Contrastive Learning [17.864914834411092]
我々は、最先端の文埋め込みのための最初のバックドアアタックフレームワークであるBadCSEを提示する。我々は、STSタスクと他の下流タスクの両方でBadCSEを評価した。
論文参考訳（メタデータ） (2022-10-20T08:19:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。