Fugu-MT 論文翻訳(概要): Is the System Message Really Important to Jailbreaks in Large Language Models?

論文の概要: Is the System Message Really Important to Jailbreaks in Large Language Models?

arxiv url: http://arxiv.org/abs/2402.14857v1
Date: Tue, 20 Feb 2024 17:39:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-03 19:29:28.703532
Title: Is the System Message Really Important to Jailbreaks in Large Language Models?
Title（参考訳）: 大規模言語モデルのジェイルブレイクにとってシステムメッセージは本当に重要か?
Authors: Xiaotian Zou, Yongkang Chen, Ke Li
Abstract要約: ジェイルブレイク(jailbreak)とは、Large Language Models(LLM)が悪質な質問を誘発するときに発生する予期せぬ、潜在的に有害な応答のことである。本稿では,脱獄プロンプトに耐性のあるシステムメッセージを生成するためのシステムメッセージアルゴリズム(SMEA)を提案する。我々の研究はLLMのセキュリティを強化し、脱獄の限界を高め、この研究分野の進歩を育みます。
参考スコア（独自算出の注目度）: 5.032370454116833
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid evolution of Large Language Models (LLMs) has rendered them indispensable in modern society. While security measures are typically in place to align LLMs with human values prior to release, recent studies have unveiled a concerning phenomenon named "jailbreak." This term refers to the unexpected and potentially harmful responses generated by LLMs when prompted with malicious questions. Existing research focuses on generating jailbreak prompts but our study aim to answer a different question: Is the system message really important to jailbreak in LLMs? To address this question, we conducted experiments in a stable GPT version gpt-3.5-turbo-0613 to generated jailbreak prompts with varying system messages: short, long, and none. We discover that different system messages have distinct resistances to jailbreak by experiments. Additionally, we explore the transferability of jailbreak across LLMs. This finding underscores the significant impact system messages can have on mitigating LLMs jailbreak. To generate system messages that are more resistant to jailbreak prompts, we propose System Messages Evolutionary Algorithms (SMEA). Through SMEA, we can get robust system messages population that demonstrate up to 98.9% resistance against jailbreak prompts. Our research not only bolsters LLMs security but also raises the bar for jailbreak, fostering advancements in this field of study.
Abstract（参考訳）: 大規模言語モデル(llm)の急速な進化は、現代社会においてそれらにとって不可欠である。セキュリティ対策は通常、リリース前にLSMを人的価値に合わせるために行われるが、最近の研究では「ジェイルブレイク」と呼ばれる関連する現象を明らかにしている。この用語は、悪意のある質問によって引き起こされたLSMによる予期せぬ、潜在的に有害な反応を指す。既存の研究はジェイルブレイクプロンプトの生成にフォーカスしていますが、我々の研究は別の質問に答えることを目的としています。そこで我々は,gptバージョンgpt-3.5-turbo-0613を用いて,さまざまなシステムメッセージを含むジェイルブレイクプロンプトを生成する実験を行った。異なるシステムメッセージは、実験によってジェイルブレイクに対する耐性が異なることが分かりました。さらに,LLM間のジェイルブレイクの転送可能性についても検討する。この発見は、LLMのジェイルブレイクを緩和するシステムメッセージの重大な影響を浮き彫りにする。脱獄プロンプトに耐性のあるシステムメッセージを生成するために,システムメッセージ進化アルゴリズム(SMEA)を提案する。 smeaを通じて、脱獄プロンプトに対する98.9%の抵抗を示す堅牢なシステムメッセージの人口を得ることができる。我々の研究は、LSMのセキュリティを後押しするだけでなく、脱獄の障壁を増し、この研究分野の進歩を育みます。

関連論文リスト

Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文参考訳（メタデータ） (2025-02-11T13:50:50Z)
JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [12.392258585661446]
大規模言語モデル(LLM)はジェイルブレイク攻撃に対して脆弱であり、敵のプロンプトはセキュリティメカニズムをバイパスし、予期せぬ応答を誘発する。本稿では,Jailbreak機構を表現と回路の両方の観点から解析する解釈フレームワークであるJailbreakLensを提案する。
論文参考訳（メタデータ） (2024-11-17T16:08:34Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
JailbreakHunter: A Visual Analytics Approach for Jailbreak Prompts Discovery from Large-Scale Human-LLM Conversational Datasets [41.28080625748892]
大規模言語モデル (LLM) は注目されているが、誤用リスクが懸念されている。 JailbreakHunterは、大規模な人間とLLMの会話データセットでジェイルブレイクプロンプトを特定するためのビジュアル分析手法である。
論文参考訳（メタデータ） (2024-07-03T12:10:41Z)
Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文参考訳（メタデータ） (2024-06-19T16:09:58Z)
How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文参考訳（メタデータ） (2024-06-09T05:04:37Z)
Efficient Indirect LLM Jailbreak via Multimodal-LLM Jailbreak [62.56901628534646]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。我々の手法は、効率と有効性の両方の観点から、現在の最先端のジェイルブレイク手法を超越している。
論文参考訳（メタデータ） (2024-05-30T12:50:32Z)
Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models [29.312244478583665]
生成AIは、大きな言語モデル(LLM)へのユビキタスアクセスを可能にした脱獄プロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして現れてきた。 LLMの専門知識に関わらず、ユーザはしばしばジェイルブレイクを成功させる。また,脱獄即時生成のプロセスを自動化するアシスタントとしてAIを用いたシステムも開発している。
論文参考訳（メタデータ） (2024-03-26T02:47:42Z)
GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models [14.571852591904092]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文参考訳（メタデータ） (2024-02-05T18:54:43Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。 131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文参考訳（メタデータ） (2023-08-07T16:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。