論文の概要: All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2401.09798v2
- Date: Mon, 22 Jan 2024 06:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:08:58.742073
- Title: All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks
- Title(参考訳): 脱獄の仕方:ブラックボックスで簡単にジェイルブレイクを防げる方法
- Authors: Kazuhiro Takemoto
- Abstract要約: ChatGPTのような大規模言語モデル(LLMs)は、倫理的に有害なプロンプトを生み出すために、セーフガードをバイパスする、ジェイルブレイクの課題に直面している。
本研究では,ジェイルブレイクプロンプトを効果的に生成するブラックボックス手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) like ChatGPT face `jailbreak' challenges, where
safeguards are bypassed to produce ethically harmful prompts. This study
proposes a simple black-box method to effectively generate jailbreak prompts,
overcoming the high complexity and computational costs associated with existing
methods. The proposed technique iteratively rewrites harmful prompts into
non-harmful expressions using the target LLM itself, based on the hypothesis
that LLMs can directly sample expressions that bypass safeguards. Demonstrated
through experiments with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, this
method achieved an attack success rate of over 80% within an average of 5
iterations and remained effective despite model updates. The generated
jailbreak prompts were naturally-worded and concise; moreover, they were
difficult-to-defend. These results indicate that creating effective jailbreak
prompts is simpler than previously considered, suggesting that black-box
jailbreak attacks pose a more serious threat.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、倫理的に有害なプロンプトを生み出すために、セーフガードをバイパスする‘ジェイルブレイク’の課題に直面している。
本研究では,ジェイルブレイクプロンプトを効果的に生成する簡単なブラックボックス法を提案する。
提案手法は, LLMが安全ガードを回避した表現を直接サンプリングできるという仮説に基づいて, 有害なプロンプトを標的のLSM自身を用いて繰り返し書き直す。
ChatGPT(GPT-3.5およびGPT-4)とGemini-Proの実験により実証されたこの手法は、平均5回の反復で80%以上の攻撃成功率を達成した。
生成されたジェイルブレイクプロンプトは自然に言葉で書かれ、簡潔だった。
これらの結果は、効果的なジェイルブレイクプロンプトの作成が従来考えられていたよりも簡単であることを示し、ブラックボックスのジェイルブレイク攻撃がより深刻な脅威となることを示唆している。
関連論文リスト
- JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
JailbreakBenchは、jailbreak攻撃を評価するためのオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning [19.45092401994873]
本研究では,大規模言語モデル(LLM)に対する間接的ジェイルブレイク攻撃について検討する。
本稿では,新たな攻撃ベクトルRetrieval Augmented Generation Poisoningを紹介する。
Pandoraは、即座に操作することでLCMとRAGのシナジーを利用して、予期せぬ応答を生成する。
論文 参考訳(メタデータ) (2024-02-13T12:40:39Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak
Prompts on Large Language Models [28.72197050927338]
6ヶ月で4つのプラットフォームから6,387件のプロンプトを収集した。
我々は,ジェイルブレイクプロンプトの特異な特徴と,インジェクションや特権エスカレーションなどの主要な攻撃戦略を発見する。
実験の結果,現行のLLMとセーフガードは,すべてのシナリオにおいて,ジェイルブレイクのプロンプトを適切に防御できないことがわかった。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z) - Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文 参考訳(メタデータ) (2023-05-24T09:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。