論文の概要: Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts?
- arxiv url: http://arxiv.org/abs/2412.03235v2
- Date: Tue, 25 Mar 2025 12:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:24.572203
- Title: Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts?
- Title(参考訳): LLMの安全訓練は, 自然のプロンプトに一般化されるか?
- Authors: Sravanti Addepalli, Yerram Varun, Arun Suggala, Karthikeyan Shanmugam, Prateek Jain,
- Abstract要約: LLM(Large Language Models)は、敵の攻撃やジェイルブレイクの影響を受けやすい言語である。
安全調整されたLLMがアライメント後の安全応答を誘発する自然的プロンプトに対して安全かどうかを評価する。
- 参考スコア(独自算出の注目度): 32.583583725567834
- License:
- Abstract: Large Language Models (LLMs) are known to be susceptible to crafted adversarial attacks or jailbreaks that lead to the generation of objectionable content despite being aligned to human preferences using safety fine-tuning methods. While the large dimensionality of input token space makes it inevitable to find adversarial prompts that can jailbreak these models, we aim to evaluate whether safety fine-tuned LLMs are safe against natural prompts which are semantically related to toxic seed prompts that elicit safe responses after alignment. We surprisingly find that popular aligned LLMs such as GPT-4 can be compromised using naive prompts that are NOT even crafted with an objective of jailbreaking the model. Furthermore, we empirically show that given a seed prompt that elicits a toxic response from an unaligned model, one can systematically generate several semantically related natural prompts that can jailbreak aligned LLMs. Towards this, we propose a method of Response Guided Question Augmentation (ReG-QA) to evaluate the generalization of safety aligned LLMs to natural prompts, that first generates several toxic answers given a seed question using an unaligned LLM (Q to A), and further leverages an LLM to generate questions that are likely to produce these answers (A to Q). We interestingly find that safety fine-tuned LLMs such as GPT-4o are vulnerable to producing natural jailbreak questions from unsafe content (without denial) and can thus be used for the latter (A to Q) step. We obtain attack success rates that are comparable to/ better than leading adversarial attack methods on the JailbreakBench leaderboard, while being significantly more stable against defenses such as Smooth-LLM and Synonym Substitution, which are effective against existing all attacks on the leaderboard.
- Abstract(参考訳): LLM(Large Language Models)は、人間の好みに順応しているにもかかわらず、安全な微調整手法を用いて、敵対的な攻撃やジェイルブレイクを発生させる可能性があることが知られている。
入力トークン空間の次元が大きければ、これらのモデルを脱獄させる敵のプロンプトを見つけることは避けられないが、我々は、安全に調整されたLSMが、アライメント後の安全な応答を誘発する有毒なシードプロンプトに意味的に関連している自然のプロンプトに対して安全であるかどうかを評価することを目指している。
GPT-4のような一般的なLCMは、モデルをジェイルブレイクする目的で作られたものではありませんが、素直なプロンプトを使って妥協できるのです。
さらに、不整合モデルから有害反応を誘発するシードプロンプトが与えられた場合、ジェイルブレイク可能ないくつかの意味論的自然的プロンプトを系統的に生成できることを実証的に示す。
そこで本研究では,安全性に配慮したLLMの自然的プロンプトへの一般化を評価するためのReg-QA(Reg-QA)手法を提案する。
GPT-4o などの安全調整 LLM は,安全でないコンテンツから(否定せずに)自然ジェイルブレイクの問題を生じさせる危険性があり,後者(A〜Q) ステップで使用できることが興味深い。
スムースLLMやSynonym Substitutionのような既存のすべての攻撃に対して有効でありながら、JailbreakBenchの指導的攻撃方法と同等または同等の攻撃成功率を得る。
関連論文リスト
- Making Them a Malicious Database: Exploiting Query Code to Jailbreak Aligned Large Language Models [44.27350994698781]
安全アライメントの一般化可能性を検討するための新しい枠組みを提案する。
LLMを知識データベースとして扱うことにより、自然言語の悪意あるクエリを構造化された非自然なクエリ言語に変換する。
メインストリームのLSMについて広範な実験を行い、QueryAttackが高い攻撃成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-02-13T19:13:03Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。
この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。
実験の結果,ラマ2-7Bは94%の成功率を示した。
論文 参考訳(メタデータ) (2024-10-15T12:08:14Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。