論文の概要: Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
- arxiv url: http://arxiv.org/abs/2312.02119v2
- Date: Wed, 21 Feb 2024 17:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:37:16.107111
- Title: Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
- Title(参考訳): tree of attack: 自動ジェイルブレイクブラックボックスllm
- Authors: Anay Mehrotra, Manolis Zampetakis, Paul Kassianik, Blaine Nelson,
Hyrum Anderson, Yaron Singer, Amin Karbasi
- Abstract要約: 本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAPは、少数のクエリだけでプロンプトの80%以上をジェイルブレイク状態のLLMで実行するプロンプトを生成する。
TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
- 参考スコア(独自算出の注目度): 36.08357229578738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) display versatile functionality, they
continue to generate harmful, biased, and toxic content, as demonstrated by the
prevalence of human-designed jailbreaks. In this work, we present Tree of
Attacks with Pruning (TAP), an automated method for generating jailbreaks that
only requires black-box access to the target LLM. TAP utilizes an LLM to
iteratively refine candidate (attack) prompts using tree-of-thought reasoning
until one of the generated prompts jailbreaks the target. Crucially, before
sending prompts to the target, TAP assesses them and prunes the ones unlikely
to result in jailbreaks. Using tree-of-thought reasoning allows TAP to navigate
a large search space of prompts and pruning reduces the total number of queries
sent to the target. In empirical evaluations, we observe that TAP generates
prompts that jailbreak state-of-the-art LLMs (including GPT4 and GPT4-Turbo)
for more than 80% of the prompts using only a small number of queries.
Interestingly, TAP is also capable of jailbreaking LLMs protected by
state-of-the-art guardrails, e.g., LlamaGuard. This significantly improves upon
the previous state-of-the-art black-box method for generating jailbreaks.
- Abstract(参考訳): 大規模言語モデル(llm)は汎用的な機能を備えているが、人間設計のジェイルブレイクの普及によって示されるように、有害で偏りのある、有害なコンテンツを生み出し続けている。
本研究では,ターゲットLSMへのブラックボックスアクセスのみを必要とするジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAP は LLM を用いて、候補(攻撃)を反復的に洗練させ、生成したプロンプトの1つがターゲットをジェイルブレイクするまで、ツリー・オブ・シント推論を使用する。
重要なことに、ターゲットにプロンプトを送る前に、TAPはそれらを評価し、脱獄の可能性が低いものをプルークする。
Tree-of-Thought推論を使用することで、TAPはプロンプトとプルーニングの大きな検索スペースをナビゲートでき、ターゲットに送信されるクエリの総数を削減できる。
経験的評価では,TAP がジェイルブレイク状態の LLM (GPT4 と GPT4-Turbo を含む) を,少数のクエリのみを用いて80%以上のプロンプトで生成する。
興味深いことに、TAPはLlamaGuardのような最先端のガードレールで保護されたLLMをジェイルブレイクすることができる。
これは、ジェイルブレイクを生成するための以前の最先端ブラックボックスメソッドを大幅に改善する。
関連論文リスト
- SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。