論文の概要: GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs
- arxiv url: http://arxiv.org/abs/2411.14133v1
- Date: Thu, 21 Nov 2024 14:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:52.508319
- Title: GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs
- Title(参考訳): GASP: 脱獄 LLM 用対向接尾辞の効率的なブラックボックス生成
- Authors: Advik Raj Basani, Xiao Zhang,
- Abstract要約: 本稿では,GASP(Generative Adversarial Suffix Prompter)を提案する。
実験の結果、GASPは自然な脱獄プロンプトを生成し、攻撃成功率を大幅に改善し、トレーニング時間を短縮し、推論速度を加速できることがわかった。
- 参考スコア(独自算出の注目度): 3.096869664709865
- License:
- Abstract: Large Language Models (LLMs) have shown impressive proficiency across a range of natural language processing tasks yet remain vulnerable to adversarial prompts, known as jailbreak attacks, carefully designed to elicit harmful responses from LLMs. Traditional methods rely on manual heuristics, which suffer from limited generalizability. While being automatic, optimization-based attacks often produce unnatural jailbreak prompts that are easy to detect by safety filters or require high computational overhead due to discrete token optimization. Witnessing the limitations of existing jailbreak methods, we introduce Generative Adversarial Suffix Prompter (GASP), a novel framework that combines human-readable prompt generation with Latent Bayesian Optimization (LBO) to improve adversarial suffix creation in a fully black-box setting. GASP leverages LBO to craft adversarial suffixes by efficiently exploring continuous embedding spaces, gradually optimizing the model to improve attack efficacy while balancing prompt coherence through a targeted iterative refinement procedure. Our experiments show that GASP can generate natural jailbreak prompts, significantly improving attack success rates, reducing training times, and accelerating inference speed, thus making it an efficient and scalable solution for red-teaming LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな自然言語処理タスクにおいて、優れた習熟度を示しているが、LDMから有害な応答を引き出すために慎重に設計された、ジェイルブレイク攻撃(jailbreak attack)として知られる敵のプロンプトに弱いままである。
伝統的な手法は手動のヒューリスティックに頼っているが、それは限定的な一般化性に悩まされている。
自動的な最適化ベースの攻撃は、安全フィルタによって容易に検出できる不自然なジェイルブレイクプロンプトや、離散トークン最適化による高い計算オーバーヘッドを必要とする場合が多い。
既存のジェイルブレイク手法の限界に気付き,人間の読みやすいプロンプト生成とLatent Bayesian Optimization(LBO)を組み合わせた,完全ブラックボックス環境での逆サフィックス生成を改善する新しいフレームワークであるGenerative Adversarial Suffix Prompter(GASP)を紹介した。
GASPはLBOを利用して、連続的な埋め込み空間を効率的に探索し、段階的にモデルを最適化して攻撃効率を向上させるとともに、目標とする反復的洗練手順を通じて迅速なコヒーレンスをバランスさせる。
実験の結果, GASPは自然な脱獄プロンプトを生成でき, 攻撃成功率を大幅に向上し, トレーニング時間を短縮し, 推論速度を向上できることがわかった。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。
スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。
また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文 参考訳(メタデータ) (2024-12-20T07:29:10Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
LIAR(Leveraging Inference Time Alignment to jailbReak)は、ジェイルブレイク攻撃に適した高速で効率的なNのアプローチである。
その結果, 最適Nアプローチは, 整列LLMのロバスト性を評価する上で, 単純かつ高効率な戦略であることがわかった。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - Unlocking Adversarial Suffix Optimization Without Affirmative Phrases: Efficient Black-box Jailbreaking via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。
我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。
ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文 参考訳(メタデータ) (2024-08-21T03:35:24Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。