Fugu-MT 論文翻訳(概要): Jailbreaking Black Box Large Language Models in Twenty Queries

論文の概要: Jailbreaking Black Box Large Language Models in Twenty Queries

arxiv url: http://arxiv.org/abs/2310.08419v2
Date: Fri, 13 Oct 2023 21:50:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 10:17:18.421523
Title: Jailbreaking Black Box Large Language Models in Twenty Queries
Title（参考訳）: 20のクエリにおけるブラックボックス大言語モデルの脱獄
Authors: Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J. Pappas, Eric Wong
Abstract要約: 大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。 PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
参考スコア（独自算出の注目度）: 102.17459476527233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is growing interest in ensuring that large language models (LLMs) align with human values. However, the alignment of such models is vulnerable to adversarial jailbreaks, which coax LLMs into overriding their safety guardrails. The identification of these vulnerabilities is therefore instrumental in understanding inherent weaknesses and preventing future misuse. To this end, we propose Prompt Automatic Iterative Refinement (PAIR), an algorithm that generates semantic jailbreaks with only black-box access to an LLM. PAIR -- which is inspired by social engineering attacks -- uses an attacker LLM to automatically generate jailbreaks for a separate targeted LLM without human intervention. In this way, the attacker LLM iteratively queries the target LLM to update and refine a candidate jailbreak. Empirically, PAIR often requires fewer than twenty queries to produce a jailbreak, which is orders of magnitude more efficient than existing algorithms. PAIR also achieves competitive jailbreaking success rates and transferability on open and closed-source LLMs, including GPT-3.5/4, Vicuna, and PaLM-2.
Abstract（参考訳）: 大規模言語モデル(llm)が人間の価値観に合致することに対する関心が高まっている。しかし、これらのモデルのアライメントは、llmを安全ガードレールをオーバーライドさせる敵のジェイルブレイクに対して脆弱である。これらの脆弱性の特定は、固有の弱点を理解し、将来の誤用を防ぐのに役立つ。そこで本研究では,LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムであるPrompt Automatic Iterative Refinement (PAIR)を提案する。 PAIRは、社会工学的な攻撃にインスパイアされたもので、人間の介入なしに個別のLLMに対して自動でジェイルブレイクを生成する。このようにして、攻撃者 LLM は、ターゲットの LLM を反復的にクエリして、候補のjailbreak を更新および精査する。経験的に、PAIRは、既存のアルゴリズムよりも桁違いに効率的なジェイルブレイクを生成するために、20未満のクエリを必要とすることが多い。 PAIRは、GPT-3.5/4、Vicuna、PaLM-2など、オープンでクローズドなLLM上で、競合するジェイルブレイクの成功率と転送性も達成している。

関連論文リスト

Many-Turn Jailbreaking [65.04921693379944]
そこで本研究では,JailbreakされたLLMを1つ以上のターゲットクエリで連続的にテストするマルチターンジェイルブレイクについて検討する。我々は、一連のオープンソースモデルとクローズドソースモデルでこの設定をベンチマークするために、Multi-Turn Jailbreak Benchmark (MTJ-Bench)を構築した。
論文参考訳（メタデータ） (2025-08-09T00:02:39Z)
JULI: Jailbreak Large Language Models by Self-Introspection [2.1267423178232407]
LLM(Large Language Models)は、悪意のあるコンテンツの生成を防ぐために、安全アライメントをトレーニングする。トークンログの確率を操作することで,LDMをジェイルブレイクするJULI(Jailbreaking Using LLM Introspection)を提案する。提案手法は,既存のSOTA(State-of-the-art)アプローチよりも優れた効果を示す。
論文参考訳（メタデータ） (2025-05-17T02:28:12Z)
Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文参考訳（メタデータ） (2024-10-31T01:55:33Z)
h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。我々は、一般的なGPT-3.5/4モデルを用いて、主要なジェイルブレイク攻撃すべてに対して実証的に検証した。これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵する。
論文参考訳（メタデータ） (2024-06-08T15:45:31Z)
Efficient Indirect LLM Jailbreak via Multimodal-LLM Jailbreak [62.56901628534646]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。我々の手法は、効率と有効性の両方の観点から、現在の最先端のジェイルブレイク手法を超越している。
論文参考訳（メタデータ） (2024-05-30T12:50:32Z)
Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文参考訳（メタデータ） (2024-03-13T11:16:43Z)
Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。 imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文参考訳（メタデータ） (2024-02-04T01:29:24Z)
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [34.36053833900958]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。 TAPは、最先端のLDMを80%以上にわたってジェイルブレイクするプロンプトを生成する。 TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文参考訳（メタデータ） (2023-12-04T18:49:23Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。