論文の概要: Graph of Attacks with Pruning: Optimizing Stealthy Jailbreak Prompt Generation for Enhanced LLM Content Moderation
- arxiv url: http://arxiv.org/abs/2501.18638v1
- Date: Tue, 28 Jan 2025 17:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:45.905421
- Title: Graph of Attacks with Pruning: Optimizing Stealthy Jailbreak Prompt Generation for Enhanced LLM Content Moderation
- Title(参考訳): プルーニングによる攻撃のグラフ:LLMコンテンツ修正のための定常ジェイルブレイクプロンプト生成の最適化
- Authors: Daniel Schwartz, Dmitriy Bespalov, Zhe Wang, Ninad Kulkarni, Yanjun Qi,
- Abstract要約: 我々は、高レベルのコンテンツポリシーから派生したステルスなジェイルブレイクプロンプトを自動生成する。
また、Jailbreakを検出するためにトレーニングされたモデルであるPromptGuardを微調整し、Toxic-Chatデータセットの精度を5.1%から93.89%に向上させた。
- 参考スコア(独自算出の注目度): 12.303965802578087
- License:
- Abstract: We present a modular pipeline that automates the generation of stealthy jailbreak prompts derived from high-level content policies, enhancing LLM content moderation. First, we address query inefficiency and jailbreak strength by developing Graph of Attacks with Pruning (GAP), a method that utilizes strategies from prior jailbreaks, resulting in 92% attack success rate on GPT-3.5 using only 54% of the queries of the prior algorithm. Second, we address the cold-start issue by automatically generating seed prompts from the high-level policy using LLMs. Finally, we demonstrate the utility of these generated jailbreak prompts of improving content moderation by fine-tuning PromptGuard, a model trained to detect jailbreaks, increasing its accuracy on the Toxic-Chat dataset from 5.1% to 93.89%.
- Abstract(参考訳): 我々は,高レベルのコンテンツポリシーから派生したステルスジェイルブレイクプロンプトを自動生成するモジュールパイプラインを提案し,LLMコンテンツのモデレーションを向上する。
まず、前回のジェイルブレイクの戦略を利用する方法であるグラフ・オブ・アタック・アタック・アタック・ウィズ・プルーニング(GAP)を開発することで、クエリ非効率性とジェイルブレイク強度に対処する。
第2に, LLMを用いた高レベル政策からシードプロンプトを自動生成することで, コールドスタート問題に対処する。
最後に、これらの生成されたjailbreakプロンプトの有用性を実証する。細調整されたPromptGuardは、jailbreakを検出するためにトレーニングされたモデルで、Toxic-Chatデータセットの精度は5.1%から93.89%に向上する。
関連論文リスト
- Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models [16.83476701024932]
Greedy Coordinate Gradient (GCG) 法は, 脱獄状態のLDMを自動生成する能力を示した。
本稿では、接尾辞トークンの勾配情報を利用して間接効果に対処するモデル攻撃勾配指数GCG(MAGIC)を提案する。
AdvBenchの実験では、MAGICは最大1.5倍のスピードアップを実現し、ASR(Attack Success Rates)を同等以上維持している。
論文 参考訳(メタデータ) (2024-12-11T18:37:56Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJに対抗するために,セルフリマインダーキーと呼ばれる単純な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - SoP: Unlock the Power of Social Facilitation for Automatic Jailbreak Attack [16.3259723257638]
私たちはJailbreakプロンプトを自動設計するフレームワークであるSoPを紹介します。
GPT-3.5-1106とGPT-4の安全アライメントを回避し,攻撃成功率88%と60%を達成した。
論文 参考訳(メタデータ) (2024-07-02T02:58:29Z) - AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization [31.034290076970205]
大規模言語モデル(LLM)をジェイルブレイクする新しい手法であるAutoBreachを紹介する。
ワードプレイの汎用性にインスパイアされたAutoBreachは、ワードプレイ誘導マッピングルールサンプリング戦略を使用して、敵のプロンプトを生成する。
AutoBreachは、Claude-3、GPT-3.5、GPT-4 Turboの3つのプロプライエタリなモデルと、Bingchat、GPT-4 Webの2つのLLMのWebプラットフォームを含む、様々なLLMのセキュリティ脆弱性を効果的に識別することができる。
論文 参考訳(メタデータ) (2024-05-30T03:38:31Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning [19.45092401994873]
本研究では,大規模言語モデル(LLM)に対する間接的ジェイルブレイク攻撃について検討する。
本稿では,新たな攻撃ベクトルRetrieval Augmented Generation Poisoningを紹介する。
Pandoraは、即座に操作することでLCMとRAGのシナジーを利用して、予期せぬ応答を生成する。
論文 参考訳(メタデータ) (2024-02-13T12:40:39Z) - Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [34.36053833900958]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAPは、最先端のLDMを80%以上にわたってジェイルブレイクするプロンプトを生成する。
TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2023-12-04T18:49:23Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。