論文の概要: Re-Triggering Safeguards within LLMs for Jailbreak Detection
- arxiv url: http://arxiv.org/abs/2605.10611v1
- Date: Mon, 11 May 2026 14:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.877894
- Title: Re-Triggering Safeguards within LLMs for Jailbreak Detection
- Title(参考訳): 脱獄検知のためのLDM内部のリトリガーセーフガード
- Authors: Zheng Lin, Zhenxing Niu, Haoxuan Ji, Yuzhe Huang, Haichang Gao,
- Abstract要約: 本稿では,大規模言語モデル (LLM) に対するジェイルブレイク攻撃の防止を目的としたジェイルブレイク検出手法を提案する。
このような脱獄プロンプトは本質的に脆弱であり, 組込み破壊法を導入し, 安全対策を再活性化する。
われわれのアプローチは、ホワイトボックスやブラックボックスの設定における最先端のジェイルブレイク攻撃を効果的に防ぎ、適応攻撃に対しても堅牢である。
- 参考スコア(独自算出の注目度): 15.26823084609871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a jailbreaking prompt detection method for large language models (LLMs) to defend against jailbreak attacks. Although recent LLMs are equipped with built-in safeguards, it remains possible to craft jailbreaking prompts that bypass them. We argue that such jailbreaking prompts are inherently fragile, and thus introduce an embedding disruption method to re-activate the safeguards within LLMs. Unlike previous defense methods that aim to serve as standalone solutions, our approach instead cooperates with the LLM's internal defense mechanisms by re-triggering them. Moreover, through extensive analysis, we gain a comprehensive understanding of the disruption effects and develop an efficient search algorithm to identify appropriate disruptions for effective jailbreak detection. Extensive experiments demonstrate that our approach effectively defends against state-of-the-art jailbreak attacks in white-box and black-box settings, and remains robust even against adaptive attacks.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) に対するジェイルブレイク攻撃の防止を目的としたジェイルブレイク検出手法を提案する。
近年のLLMには防犯装備が備わっているが、防犯プロンプトを外すことが可能である。
このような脱獄プロンプトは本質的に脆弱であり, 組込み破壊法を導入して, LLM内の安全ガードを再活性化する。
スタンドアロンのソリューションとして機能することを目的とした従来の防衛手法とは違い,我々のアプローチは,再試行によってLLMの内部防衛機構と協調する。
さらに, 大規模解析により, 破壊効果の包括的理解を得て, 有効なジェイルブレイク検出のための効率的な探索アルゴリズムを開発した。
大規模な実験により,この手法は,ホワイトボックスやブラックボックスの設定における最先端のジェイルブレイク攻撃に対して効果的に防御でき,適応攻撃に対しても堅牢であることが示された。
関連論文リスト
- Proactive defense against LLM Jailbreak [28.249786308207046]
ProActは、自律的な脱獄プロセスを妨害し、誤解を招くように設計された、新しいプロアクティブな防御フレームワークである。
本手法は攻撃成功率を最大92%削減する。
論文 参考訳(メタデータ) (2025-10-06T17:32:40Z) - LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。
ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。
本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文 参考訳(メタデータ) (2025-09-18T02:42:52Z) - Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Transferable & Stealthy Ensemble Attacks: A Black-Box Jailbreaking Framework for Large Language Models [1.0742675209112622]
我々は,複数のLDM-as-Attacker戦略を統合し,高度に転送可能で効果的な攻撃を実現する新しいブラックボックスジェイルブレイクフレームワークを提案する。
このフレームワークは、以前のジェイルブレイクの研究と実践から3つの重要な洞察に基礎を置いている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Efficient Indirect LLM Jailbreak via Multimodal-LLM Jailbreak [62.56901628534646]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。
我々の手法は、効率と有効性の両方の観点から、現在の最先端のジェイルブレイク手法を超越している。
論文 参考訳(メタデータ) (2024-05-30T12:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。