Fugu-MT 論文翻訳(概要): Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

論文の概要: Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

arxiv url: http://arxiv.org/abs/2312.02119v2
Date: Wed, 21 Feb 2024 17:49:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 19:37:16.107111
Title: Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
Title（参考訳）: tree of attack: 自動ジェイルブレイクブラックボックスllm
Authors: Anay Mehrotra, Manolis Zampetakis, Paul Kassianik, Blaine Nelson, Hyrum Anderson, Yaron Singer, Amin Karbasi
Abstract要約: 本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。 TAPは、少数のクエリだけでプロンプトの80%以上をジェイルブレイク状態のLLMで実行するプロンプトを生成する。 TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
参考スコア（独自算出の注目度）: 36.08357229578738
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Large Language Models (LLMs) display versatile functionality, they continue to generate harmful, biased, and toxic content, as demonstrated by the prevalence of human-designed jailbreaks. In this work, we present Tree of Attacks with Pruning (TAP), an automated method for generating jailbreaks that only requires black-box access to the target LLM. TAP utilizes an LLM to iteratively refine candidate (attack) prompts using tree-of-thought reasoning until one of the generated prompts jailbreaks the target. Crucially, before sending prompts to the target, TAP assesses them and prunes the ones unlikely to result in jailbreaks. Using tree-of-thought reasoning allows TAP to navigate a large search space of prompts and pruning reduces the total number of queries sent to the target. In empirical evaluations, we observe that TAP generates prompts that jailbreak state-of-the-art LLMs (including GPT4 and GPT4-Turbo) for more than 80% of the prompts using only a small number of queries. Interestingly, TAP is also capable of jailbreaking LLMs protected by state-of-the-art guardrails, e.g., LlamaGuard. This significantly improves upon the previous state-of-the-art black-box method for generating jailbreaks.
Abstract（参考訳）: 大規模言語モデル(llm)は汎用的な機能を備えているが、人間設計のジェイルブレイクの普及によって示されるように、有害で偏りのある、有害なコンテンツを生み出し続けている。本研究では,ターゲットLSMへのブラックボックスアクセスのみを必要とするジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。 TAP は LLM を用いて、候補(攻撃)を反復的に洗練させ、生成したプロンプトの1つがターゲットをジェイルブレイクするまで、ツリー・オブ・シント推論を使用する。重要なことに、ターゲットにプロンプトを送る前に、TAPはそれらを評価し、脱獄の可能性が低いものをプルークする。 Tree-of-Thought推論を使用することで、TAPはプロンプトとプルーニングの大きな検索スペースをナビゲートでき、ターゲットに送信されるクエリの総数を削減できる。経験的評価では,TAP がジェイルブレイク状態の LLM (GPT4 と GPT4-Turbo を含む) を,少数のクエリのみを用いて80%以上のプロンプトで生成する。興味深いことに、TAPはLlamaGuardのような最先端のガードレールで保護されたLLMをジェイルブレイクすることができる。これは、ジェイルブレイクを生成するための以前の最先端ブラックボックスメソッドを大幅に改善する。

関連論文リスト

LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文参考訳（メタデータ） (2025-09-18T02:42:52Z)
Involuntary Jailbreak [11.078631999104907]
我々は,大規模言語モデル (LLM) に新たな脆弱性を提示し,これをtextbfinvoluntary jailbreak と呼ぶ。既存のジェイルブレイク攻撃とは異なり、この弱点は爆弾をテキスト化するための命令を生成するなど、特定の攻撃目標を含まない。我々はLSMに対して、通常拒否されるであろういくつかの質問とそれに対応する詳細な応答を生成するよう指示する。注目すべきは、この単純なプロンプト戦略は、Claude Opus 4.1、Grok 4、Gemini 2.5 Pro、GPT 4.1を含む主要なLCMの大多数を継続的にジェイルブレイクさせることである。
論文参考訳（メタデータ） (2025-08-18T10:38:30Z)
Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文参考訳（メタデータ） (2024-06-28T11:35:54Z)
Efficient Indirect LLM Jailbreak via Multimodal-LLM Jailbreak [62.56901628534646]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。我々の手法は、効率と有効性の両方の観点から、現在の最先端のジェイルブレイク手法を超越している。
論文参考訳（メタデータ） (2024-05-30T12:50:32Z)
LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。 jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文参考訳（メタデータ） (2024-02-24T05:34:43Z)
Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。 GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文参考訳（メタデータ） (2023-11-15T17:17:39Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。 131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文参考訳（メタデータ） (2023-08-07T16:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。