論文の概要: All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2401.09798v3
- Date: Mon, 12 Feb 2024 02:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:57:57.509264
- Title: All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks
- Title(参考訳): 脱獄の仕方:ブラックボックスで簡単にジェイルブレイクを防げる方法
- Authors: Kazuhiro Takemoto
- Abstract要約: 本研究では,ジェイルブレイクプロンプトを効率的に作成するための簡単なブラックボックス手法を提案する。
本手法は有害なプロンプトを目的のLSMを直接利用した良性表現に反復的に変換する。
提案手法は, 平均5回の質問に対して, 80%以上の攻撃成功率を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT, encounter `jailbreak'
challenges, wherein safeguards are circumvented to generate ethically harmful
prompts. This study introduces a straightforward black-box method for
efficiently crafting jailbreak prompts, addressing the significant complexity
and computational costs associated with conventional methods. Our technique
iteratively transforms harmful prompts into benign expressions directly
utilizing the target LLM, predicated on the hypothesis that LLMs can
autonomously generate expressions that evade safeguards. Through experiments
conducted with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, our method
consistently achieved an attack success rate exceeding 80% within an average of
five iterations for forbidden questions and proved robust against model
updates. The jailbreak prompts generated were not only naturally-worded and
succinct but also challenging to defend against. These findings suggest that
the creation of effective jailbreak prompts is less complex than previously
believed, underscoring the heightened risk posed by black-box jailbreak
attacks.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、倫理的に有害なプロンプトを生成するためにセーフガードが回避される「ジェイルブレイク」問題に遭遇する。
本研究では,ジェイルブレイクプロンプトを効率的に作成するためのブラックボックス手法を提案する。
本手法は, 有害なプロンプトを目標LLMを直接利用した良性表現に反復的に変換し, LLMが安全を回避可能な表現を自律的に生成できるという仮説を導いた。
また,ChatGPT(GPT-3.5およびGPT-4)とGemini-Pro(GPT-3.5およびGPT-4)を用いて行った実験により,提案手法は平均5回に80%を超える攻撃成功率を達成した。
ジェイルブレイクのプロンプトは、自然言語で簡潔なだけでなく、防御も難しいものだった。
これらの結果は、効果的なジェイルブレイクプロンプトの作成は以前考えられていたよりも複雑ではなく、ブラックボックスのジェイルブレイク攻撃によるリスクの高揚を物語っていることを示唆している。
関連論文リスト
- JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
JailbreakBenchは、jailbreak攻撃を評価するためのオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning [19.45092401994873]
本研究では,大規模言語モデル(LLM)に対する間接的ジェイルブレイク攻撃について検討する。
本稿では,新たな攻撃ベクトルRetrieval Augmented Generation Poisoningを紹介する。
Pandoraは、即座に操作することでLCMとRAGのシナジーを利用して、予期せぬ応答を生成する。
論文 参考訳(メタデータ) (2024-02-13T12:40:39Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak
Prompts on Large Language Models [28.72197050927338]
6ヶ月で4つのプラットフォームから6,387件のプロンプトを収集した。
我々は,ジェイルブレイクプロンプトの特異な特徴と,インジェクションや特権エスカレーションなどの主要な攻撃戦略を発見する。
実験の結果,現行のLLMとセーフガードは,すべてのシナリオにおいて,ジェイルブレイクのプロンプトを適切に防御できないことがわかった。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z) - Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文 参考訳(メタデータ) (2023-05-24T09:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。