論文の概要: Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak
- arxiv url: http://arxiv.org/abs/2312.04127v2
- Date: Fri, 23 Feb 2024 07:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:37:31.281404
- Title: Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak
- Title(参考訳): LLMの本質的応答傾向の分析:実世界の命令駆動ジェイルブレイク
- Authors: Yanrui Du, Sendong Zhao, Ming Ma, Yuhan Chen, Bing Qin
- Abstract要約: 大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
- 参考スコア(独自算出の注目度): 26.741029482196534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extensive work has been devoted to improving the safety mechanism of Large
Language Models (LLMs). However, LLMs still tend to generate harmful responses
when faced with malicious instructions, a phenomenon referred to as "Jailbreak
Attack". In our research, we introduce a novel automatic jailbreak method
RADIAL, which bypasses the security mechanism by amplifying the potential of
LLMs to generate affirmation responses. The jailbreak idea of our method is
"Inherent Response Tendency Analysis" which identifies real-world instructions
that can inherently induce LLMs to generate affirmation responses and the
corresponding jailbreak strategy is "Real-World Instructions-Driven Jailbreak"
which involves strategically splicing real-world instructions identified
through the above analysis around the malicious instruction. Our method
achieves excellent attack performance on English malicious instructions with
five open-source advanced LLMs while maintaining robust attack performance in
executing cross-language attacks against Chinese malicious instructions. We
conduct experiments to verify the effectiveness of our jailbreak idea and the
rationality of our jailbreak strategy design. Notably, our method designed a
semantically coherent attack prompt, highlighting the potential risks of LLMs.
Our study provides detailed insights into jailbreak attacks, establishing a
foundation for the development of safer LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)の安全性向上に多大な取り組みがなされている。
しかし、LSMは「ジェイルブレイク・アタック(Jailbreak Attack)」と呼ばれる悪質な指示に直面すると有害な反応を生じる傾向にある。
本研究では,LDMの可能性を増幅し,肯定応答を生成することにより,セキュリティ機構をバイパスする新しい自動ジェイルブレイク手法RADIALを提案する。
本手法のジェイルブレイクの考え方は,LLMを自然に誘導して肯定応答を生成できる実世界の命令を識別する「インヒーレント・レスポンス・テンデンシー・アナリティクス」であり,それに対応するジェイルブレイク戦略は「Real-World Instructions-Driven Jailbreak」である。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において堅牢な攻撃性能を維持する。
脱獄の考え方の有効性と脱獄戦略設計の合理性を検証する実験を行った。
特に,本手法は,llmの潜在的なリスクを浮き彫りにした,意味的に一貫性のある攻撃プロンプトを設計した。
我々の研究は、脱獄攻撃に関する詳細な知見を提供し、より安全なLSMの開発のための基盤を確立する。
関連論文リスト
- Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。
LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJに対抗するために,セルフリマインダーキーと呼ばれる単純な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。