論文の概要: Graph of Attacks with Pruning: Optimizing Stealthy Jailbreak Prompt Generation for Enhanced LLM Content Moderation
- arxiv url: http://arxiv.org/abs/2501.18638v2
- Date: Fri, 13 Jun 2025 15:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 15:41:31.033116
- Title: Graph of Attacks with Pruning: Optimizing Stealthy Jailbreak Prompt Generation for Enhanced LLM Content Moderation
- Title(参考訳): プルーニングによる攻撃のグラフ:LLMコンテンツ修正のための定常ジェイルブレイクプロンプト生成の最適化
- Authors: Daniel Schwartz, Dmitriy Bespalov, Zhe Wang, Ninad Kulkarni, Yanjun Qi,
- Abstract要約: 本稿では,ステルスなジェイルブレイクプロンプトを生成するためのGAP(Graph of Attacks with Pruning)フレームワークを紹介する。
GAPは、相互接続グラフ構造を実装することで、既存のツリーベースのLLMジェイルブレイク手法の制限に対処する。
自動シード生成のためのGAP-Autoや、マルチモーダル攻撃のためのGAP-VLMなど、特殊なバリエーションを提示する。
- 参考スコア(独自算出の注目度): 12.303965802578087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become increasingly prevalent, ensuring their robustness against adversarial misuse is crucial. This paper introduces the GAP (Graph of Attacks with Pruning) framework, an advanced approach for generating stealthy jailbreak prompts to evaluate and enhance LLM safeguards. GAP addresses limitations in existing tree-based LLM jailbreak methods by implementing an interconnected graph structure that enables knowledge sharing across attack paths. Our experimental evaluation demonstrates GAP's superiority over existing techniques, achieving a 20.8% increase in attack success rates while reducing query costs by 62.7%. GAP consistently outperforms state-of-the-art methods for attacking both open and closed LLMs, with attack success rates of >96%. Additionally, we present specialized variants like GAP-Auto for automated seed generation and GAP-VLM for multimodal attacks. GAP-generated prompts prove highly effective in improving content moderation systems, increasing true positive detection rates by 108.5% and accuracy by 183.6% when used for fine-tuning. Our implementation is available at https://github.com/dsbuddy/GAP-LLM-Safety.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます普及するにつれて、敵の誤用に対する堅牢性を保証することが重要である。
本稿では,LPMの安全対策の評価と強化を目的として,ステルスジェイルブレイクプロンプトを生成するための高度なアプローチであるGAP(Graph of Attacks with Pruning)フレームワークを紹介する。
GAPは、攻撃経路間の知識共有を可能にする相互接続グラフ構造を実装することで、既存のツリーベースのLLMジェイルブレイク手法の制限に対処する。
実験により,GAPが既存の手法よりも優れていることを示すとともに,クエリコストを62.7%削減し,攻撃成功率を20.8%向上させることができた。
GAPは、オープンLLMとクローズドLLMの両方を攻撃するための最先端の手法を一貫して上回り、攻撃成功率は96%である。
さらに,自動シード生成のためのGAP-Autoや,マルチモーダル攻撃のためのGAP-VLMなどの特殊なバリエーションも提示する。
GAP生成プロンプトは、コンテンツモデレーションシステムの改善に非常に効果的であることが証明され、真の正検出率は108.5%増加し、微調整に使用すると183.6%精度が向上した。
実装はhttps://github.com/dsbuddy/GAP-LLM-Safetyで公開しています。
関連論文リスト
- Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models [16.83476701024932]
Greedy Coordinate Gradient (GCG) 法は, 脱獄状態のLDMを自動生成する能力を示した。
本稿では、接尾辞トークンの勾配情報を利用して間接効果に対処するモデル攻撃勾配指数GCG(MAGIC)を提案する。
AdvBenchの実験では、MAGICは最大1.5倍のスピードアップを実現し、ASR(Attack Success Rates)を同等以上維持している。
論文 参考訳(メタデータ) (2024-12-11T18:37:56Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
本稿では,PAPILLONと呼ばれる新しいジェイルブレイク攻撃フレームワークを紹介する。
自動化されたブラックボックスのジェイルブレイク攻撃フレームワークで、一連のカスタマイズされた設計でブラックボックスのファズテストアプローチを適用する。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization [31.034290076970205]
大規模言語モデル(LLM)をジェイルブレイクする新しい手法であるAutoBreachを紹介する。
ワードプレイの汎用性にインスパイアされたAutoBreachは、ワードプレイ誘導マッピングルールサンプリング戦略を使用して、敵のプロンプトを生成する。
AutoBreachは、Claude-3、GPT-3.5、GPT-4 Turboの3つのプロプライエタリなモデルと、Bingchat、GPT-4 Webの2つのLLMのWebプラットフォームを含む、様々なLLMのセキュリティ脆弱性を効果的に識別することができる。
論文 参考訳(メタデータ) (2024-05-30T03:38:31Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning [19.45092401994873]
本研究では,大規模言語モデル(LLM)に対する間接的ジェイルブレイク攻撃について検討する。
本稿では,新たな攻撃ベクトルRetrieval Augmented Generation Poisoningを紹介する。
Pandoraは、即座に操作することでLCMとRAGのシナジーを利用して、予期せぬ応答を生成する。
論文 参考訳(メタデータ) (2024-02-13T12:40:39Z) - Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [34.36053833900958]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAPは、最先端のLDMを80%以上にわたってジェイルブレイクするプロンプトを生成する。
TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2023-12-04T18:49:23Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。