Fugu-MT 論文翻訳(概要): Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models

論文の概要: Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models

arxiv url: http://arxiv.org/abs/2410.11459v1
Date: Tue, 15 Oct 2024 10:07:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.726081
Title: Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models
Title（参考訳）: Jigsaw Puzzles: 大規模な言語モデルをジェイルブレイクするための有害な質問を分割する
Authors: Hao Yang, Lizhen Qu, Ehsan Shareghi, Gholamreza Haffari,
Abstract要約: 大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。 LLMは脱獄攻撃に弱いため、有害な反応が生じる。我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
参考スコア（独自算出の注目度）: 50.89022445197919
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have exhibited outstanding performance in engaging with humans and addressing complex questions by leveraging their vast implicit knowledge and robust reasoning capabilities. However, such models are vulnerable to jailbreak attacks, leading to the generation of harmful responses. Despite recent research on single-turn jailbreak strategies to facilitate the development of defence mechanisms, the challenge of revealing vulnerabilities under multi-turn setting remains relatively under-explored. In this work, we propose Jigsaw Puzzles (JSP), a straightforward yet effective multi-turn jailbreak strategy against the advanced LLMs. JSP splits questions into harmless fractions as the input of each turn, and requests LLMs to reconstruct and respond to questions under multi-turn interaction. Our experimental results demonstrate that the proposed JSP jailbreak bypasses original safeguards against explicitly harmful content, achieving an average attack success rate of 93.76% on 189 harmful queries across 5 advanced LLMs (Gemini-1.5-Pro, Llama-3.1-70B, GPT-4, GPT-4o, GPT-4o-mini). Moreover, JSP achieves a state-of-the-art attack success rate of 92% on GPT-4 on the harmful query benchmark, and exhibits strong resistant to defence strategies. Warning: this paper contains offensive examples.
Abstract（参考訳）: 大規模言語モデル(LLM)は、その膨大な暗黙の知識と堅牢な推論能力を活用することで、人間と関わり、複雑な問題に対処する際、優れた性能を示した。しかし、このようなモデルはジェイルブレイク攻撃に弱いため、有害な反応が発生する。近年、防御機構の開発を促進するための単一ターンジェイルブレイク戦略が研究されているが、マルチターン設定下で脆弱性を明らかにすることの難しさは、まだ明らかにされていない。本研究では,高度LLMに対する簡易かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。 JSPは、各ターンの入力として質問を無害な分数に分割し、マルチターンインタラクションの下での質問の再構築と応答をLLMに要求する。実験の結果,JSPジェイルブレイクは有害な内容に対する元の保護を回避し,5つの高度なLCM(Gemini-1.5-Pro, Llama-3.1-70B, GPT-4, GPT-4o, GPT-4o-mini)の189種類の有害なクエリに対して平均93.76%の攻撃成功率を達成した。さらに、JSPは、有害なクエリベンチマークにおいて、GPT-4に対して92%の最先端の攻撃成功率を達成し、防御戦略に強い耐性を示す。注意:本論文は攻撃的な例を含む。

関連論文リスト

One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs [8.91993614197627]
本稿では,マルチターンジェイルブレイクプロンプトを単一ターン攻撃に変換するM2S(Multi-turn-to-Single-turn)という新しい手法を提案する。実験の結果、M2Sは元来のマルチターン会話に比べて高い攻撃成功率(ASR)を増大または維持することが示された。
論文参考訳（メタデータ） (2025-03-06T07:34:51Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文参考訳（メタデータ） (2024-11-12T02:44:49Z)
SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
本稿では,有害なコンテンツを生成するために,大規模言語モデル(LLM)を誘導する新しいジェイルブレイク手法を提案する。ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。本稿では,SIJ に対抗するためのセルフリマインダーキー (Self-Reminder-Key) という簡単な防御手法を提案し,その有効性を実証する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文参考訳（メタデータ） (2024-09-26T01:24:17Z)
Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。攻撃成功率は90%,80%,74%以上であり,既存のベースラインを60%以上越えている。
論文参考訳（メタデータ） (2024-09-23T10:03:09Z)
Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。 ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文参考訳（メタデータ） (2024-07-23T06:14:41Z)
Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks [89.54736699767315]
我々は、LLMの有害な知識を直接解き放つことは、脱獄攻撃から守るためのより効果的な方法になり得ると推測する。 Vicuna-7Bの攻撃成功率(ASR)は82.6%から7.7%に低下した。 Llama2-7B-Chatは、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でも21.9%のASRを持つ。
論文参考訳（メタデータ） (2024-07-03T07:14:05Z)
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs [13.317364896194903]
大規模言語モデル(LLM)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示している。 LLMはジェイルブレイク攻撃の影響を受けやすく、有害な出力を生成するために操作することができる。
論文参考訳（メタデータ） (2024-06-13T17:01:40Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。