論文の概要: Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification
- arxiv url: http://arxiv.org/abs/2503.11185v1
- Date: Fri, 14 Mar 2025 08:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:14.184594
- Title: Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification
- Title(参考訳): アライン・イン・デプス(Align in Depth): 進行性解毒剤によるジェイルブレイクの予防
- Authors: Yingjie Zhang, Tong Liu, Zhe Zhao, Guozhu Meng, Kai Chen,
- Abstract要約: 大規模言語モデル(LLM)は、有害な応答を誘発するクラフトプロンプトを使用するジェイルブレイク攻撃に対して脆弱である。
本稿では,LLMを微調整して生成したコンテンツを段階的に解毒する,堅牢な防衛フレームワークであるDEEPALIGNを提案する。
- 参考スコア(独自算出の注目度): 17.500701903902094
- License:
- Abstract: Large Language Models (LLMs) are vulnerable to jailbreak attacks, which use crafted prompts to elicit toxic responses. These attacks exploit LLMs' difficulty in dynamically detecting harmful intents during the generation process. Traditional safety alignment methods, often relying on the initial few generation steps, are ineffective due to limited computational budget. This paper proposes DEEPALIGN, a robust defense framework that fine-tunes LLMs to progressively detoxify generated content, significantly improving both the computational budget and effectiveness of mitigating harmful generation. Our approach uses a hybrid loss function operating on hidden states to directly improve LLMs' inherent awareness of toxity during generation. Furthermore, we redefine safe responses by generating semantically relevant answers to harmful queries, thereby increasing robustness against representation-mutation attacks. Evaluations across multiple LLMs demonstrate state-of-the-art defense performance against six different attack types, reducing Attack Success Rates by up to two orders of magnitude compared to previous state-of-the-art defense while preserving utility. This work advances LLM safety by addressing limitations of conventional alignment through dynamic, context-aware mitigation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、有害な応答を誘発するクラフトプロンプトを使用するジェイルブレイク攻撃に対して脆弱である。
これらの攻撃は、ジェネレーションプロセス中に有害な意図を動的に検出するLLMの難しさを悪用する。
従来の安全アライメント手法は、初期の数世代に頼っていることが多いが、計算予算が限られているため効果がない。
本稿では,LSMを微調整して生成物を段階的に解毒する堅牢な防衛フレームワークであるDEEPALIGNを提案する。
提案手法では, 隠れ状態で動作するハイブリッド損失関数を用いて, 世代間におけるLSM固有の毒性意識を直接的に改善する。
さらに、有害なクエリに対して意味論的に関連性のある回答を生成し、表現変更攻撃に対する堅牢性を高めることにより、安全な応答を再定義する。
複数のLDMをまたいだ評価では、6つの異なる攻撃タイプに対する最先端の防御性能を示し、実用性を維持しながら従来の最先端の防御よりも最大2桁の攻撃成功率を低下させる。
この研究は、動的でコンテキスト対応の緩和を通じて従来のアライメントの制限に対処することで、LCMの安全性を向上させる。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning [21.423429565221383]
大規模言語モデル(LLM)は幅広いアプリケーションにとって不可欠だが、ジェイルブレイクの脅威を受けやすい。
有害な入力を積極的に評価するために,LSMの高機能化を利用した新しい防衛戦略であるセーフティ・チェーン・オブ・サート(SCoT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:45:23Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。