Fugu-MT 論文翻訳(概要): GPTFUZZER : Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts

論文の概要: GPTFUZZER : Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts

arxiv url: http://arxiv.org/abs/2309.10253v1
Date: Tue, 19 Sep 2023 02:19:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 16:46:48.078355
Title: GPTFUZZER : Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts
Title（参考訳）: GPTFUZER : 自動生成ジェイルブレイクプロンプトを用いた大規模言語モデルのレッドチーム化
Authors: Jiahao Yu, Xingwei Lin, Xinyu Xing
Abstract要約: fuzzerは、AFLファジィングフレームワークにインスパイアされた、新しいブラックボックスジェイルブレイクファジィングフレームワークである。中心となるファザーは、人書きテンプレートを種として始まり、ミュート演算子を使って変更して新しいテンプレートを生成する。以上の結果から,すべての人造テンプレートがフェールした場合であっても,常に高い成功率でジェイルブレイクテンプレートを生成できることが示唆された。
参考スコア（独自算出の注目度）: 22.087671024167467
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have recently experienced tremendous popularity and are widely used from casual conversations to AI-driven programming. However, despite their considerable success, LLMs are not entirely reliable and can give detailed guidance on how to conduct harmful or illegal activities. While safety measures can reduce the risk of such outputs, adversarial "jailbreak" attacks can still exploit LLMs to produce harmful content. These jailbreak templates are typically manually crafted, making large-scale testing challenging. In this paper, we introduce \fuzzer, a novel black-box jailbreak fuzzing framework inspired by AFL fuzzing framework. Instead of manual engineering, \fuzzer automates the generation of jailbreak templates for red-teaming LLMs. At its core, \fuzzer starts with human-written templates as seeds, then mutates them using mutate operators to produce new templates. We detail three key components of \fuzzer: a seed selection strategy for balancing efficiency and variability, metamorphic relations for creating semantically equivalent or similar sentences, and a judgment model to assess the success of a jailbreak attack. We tested \fuzzer on various commercial and open-source LLMs, such as ChatGPT, LLaMa-2, and Claude2, under diverse attack scenarios. Our results indicate that \fuzzer consistently produces jailbreak templates with a high success rate, even in settings where all human-crafted templates fail. Notably, even starting with suboptimal seed templates, \fuzzer maintains over 90\% attack success rate against ChatGPT and Llama-2 models. We believe \fuzzer will aid researchers and practitioners in assessing LLM robustness and will spur further research into LLM safety.
Abstract（参考訳）: 大規模言語モデル(LLM)は最近非常に人気があり、カジュアルな会話からAI駆動プログラミングまで広く使われている。しかし、その大きな成功にもかかわらず、LSMは完全に信頼されておらず、有害または違法な活動の実施方法について詳細なガイダンスを与えることができる。安全対策はそのようなアウトプットのリスクを減らすことができるが、敵の「ジェイルブレイク」攻撃はLLMを悪用して有害なコンテンツを生成することができる。これらのジェイルブレイクテンプレートは通常手動で作成されるため、大規模なテストは難しい。本稿では,AFLファジィフレームワークに触発された新しいブラックボックスジェイルブレイクファジィフレームワークである \fuzzer を紹介する。手動のエンジニアリングの代わりに、 \fuzzer は llm をレッドチームするためのジェイルブレイクテンプレートの生成を自動化する。中心となるのは、人間が書いたテンプレートを種として使うことから始まり、ミュート演算子を使って変更して新しいテンプレートを生成する。効率と可変性のバランスをとるためのシード選択戦略,意味的に等価あるいは類似した文を作成するためのメタモルフィックリレーション,脱獄攻撃の成功を評価する判断モデルという3つの重要なコンポーネントを詳述した。さまざまな攻撃シナリオ下で,ChatGPT,LLaMa-2,Claude2などの商用およびオープンソースLLM上で \fuzzer をテストした。以上の結果から,すべての人造テンプレートが故障した場合でも,常に高い成功率でジェイルブレイクテンプレートを生成できることがわかった。特に、最適化されたシードテンプレートから始めると、ChatGPTおよびLlama-2モデルに対する攻撃成功率は90%以上である。われわれは、研究者や実践者がLLMの堅牢性を評価するのに役立つと信じており、LLMの安全性に関するさらなる研究を促すだろう。

関連論文リスト

JBFuzz: Jailbreaking LLMs Efficiently and Effectively Using Fuzzing [2.3822909465087228]
JBFuzzは、ソフトウェアのバグや脆弱性を検出するファジングの成功にインスパイアされている。 JBFuzzは、様々な有害・非倫理的な質問に対して全てのLSMを投獄し、平均的な攻撃成功率は99%である。
論文参考訳（メタデータ） (2025-03-12T01:52:17Z)
Dagger Behind Smile: Fool LLMs with a Happy Ending Story [3.474162324046381]
Happy Ending Attack (HEA)は、主に$textithappy end$を通じて形成された肯定的なプロンプトを含むシナリオテンプレートで悪意のあるリクエストをラップする。我々のHEAは、GPT-4o、Llama3-70b、Gemini-proを含む最先端のLLMのジェイルブレイクに成功し、平均して88.79%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2025-01-19T13:39:51Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。実験の結果,ラマ2-7Bは94%の成功率を示した。
論文参考訳（メタデータ） (2024-10-15T12:08:14Z)
Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文参考訳（メタデータ） (2024-08-20T20:35:04Z)
h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文参考訳（メタデータ） (2024-08-01T12:54:46Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。