論文の概要: All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2401.09798v2
- Date: Mon, 22 Jan 2024 06:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:08:58.742073
- Title: All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks
- Title(参考訳): 脱獄の仕方:ブラックボックスで簡単にジェイルブレイクを防げる方法
- Authors: Kazuhiro Takemoto
- Abstract要約: ChatGPTのような大規模言語モデル(LLMs)は、倫理的に有害なプロンプトを生み出すために、セーフガードをバイパスする、ジェイルブレイクの課題に直面している。
本研究では,ジェイルブレイクプロンプトを効果的に生成するブラックボックス手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) like ChatGPT face `jailbreak' challenges, where
safeguards are bypassed to produce ethically harmful prompts. This study
proposes a simple black-box method to effectively generate jailbreak prompts,
overcoming the high complexity and computational costs associated with existing
methods. The proposed technique iteratively rewrites harmful prompts into
non-harmful expressions using the target LLM itself, based on the hypothesis
that LLMs can directly sample expressions that bypass safeguards. Demonstrated
through experiments with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, this
method achieved an attack success rate of over 80% within an average of 5
iterations and remained effective despite model updates. The generated
jailbreak prompts were naturally-worded and concise; moreover, they were
difficult-to-defend. These results indicate that creating effective jailbreak
prompts is simpler than previously considered, suggesting that black-box
jailbreak attacks pose a more serious threat.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、倫理的に有害なプロンプトを生み出すために、セーフガードをバイパスする‘ジェイルブレイク’の課題に直面している。
本研究では,ジェイルブレイクプロンプトを効果的に生成する簡単なブラックボックス法を提案する。
提案手法は, LLMが安全ガードを回避した表現を直接サンプリングできるという仮説に基づいて, 有害なプロンプトを標的のLSM自身を用いて繰り返し書き直す。
ChatGPT(GPT-3.5およびGPT-4)とGemini-Proの実験により実証されたこの手法は、平均5回の反復で80%以上の攻撃成功率を達成した。
生成されたジェイルブレイクプロンプトは自然に言葉で書かれ、簡潔だった。
これらの結果は、効果的なジェイルブレイクプロンプトの作成が従来考えられていたよりも簡単であることを示し、ブラックボックスのジェイルブレイク攻撃がより深刻な脅威となることを示唆している。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJに対抗するために,セルフリマインダーキーと呼ばれる単純な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning [19.45092401994873]
本研究では,大規模言語モデル(LLM)に対する間接的ジェイルブレイク攻撃について検討する。
本稿では,新たな攻撃ベクトルRetrieval Augmented Generation Poisoningを紹介する。
Pandoraは、即座に操作することでLCMとRAGのシナジーを利用して、予期せぬ応答を生成する。
論文 参考訳(メタデータ) (2024-02-13T12:40:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文 参考訳(メタデータ) (2023-05-24T09:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。