論文の概要: Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks
- arxiv url: http://arxiv.org/abs/2501.10639v3
- Date: Fri, 30 May 2025 03:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 17:26:04.928886
- Title: Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks
- Title(参考訳): 大規模言語モデルのジェイルブレイク攻撃防御のための認識後校正による潜時空間逆行訓練
- Authors: Xin Yi, Yue Li, Dongsheng Shi, Linlin Wang, Xiaoling Wang, Liang He,
- Abstract要約: 大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
- 参考スコア(独自算出の注目度): 23.793583584784685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring safety alignment is a critical requirement for large language models (LLMs), particularly given increasing deployment in real-world applications. Despite considerable advancements, LLMs remain susceptible to jailbreak attacks, which exploit system vulnerabilities to circumvent safety measures and elicit harmful or inappropriate outputs. Furthermore, while adversarial training-based defense methods have shown promise, a prevalent issue is the unintended over-defense behavior, wherein models excessively reject benign queries, significantly undermining their practical utility. To address these limitations, we introduce LATPC, a Latent-space Adversarial Training with Post-aware Calibration framework. LATPC dynamically identifies safety-critical latent dimensions by contrasting harmful and benign inputs, enabling the adaptive construction of targeted refusal feature removal attacks. This mechanism allows adversarial training to concentrate on real-world jailbreak tactics that disguise harmful queries as benign ones. During inference, LATPC employs an efficient embedding-level calibration mechanism to minimize over-defense behaviors with negligible computational overhead. Experimental results across five types of disguise-based jailbreak attacks demonstrate that LATPC achieves a superior balance between safety and utility compared to existing defense frameworks. Further analysis demonstrates the effectiveness of leveraging safety-critical dimensions in developing robust defense methods against jailbreak attacks.
- Abstract(参考訳): 安全性の確保は大規模言語モデル(LLM)にとって重要な要件である。
かなりの進歩にもかかわらず、LLMは、安全対策を回避し、有害または不適切な出力を誘発するシステムの脆弱性を悪用するジェイルブレイク攻撃の影響を受けるままである。
さらに、敵の訓練に基づく防御手法が有望である一方で、一般的な問題は意図しない過剰な防御行動であり、モデルが過度に良質なクエリを拒否し、実用性を著しく損なう。
これらの制約に対処するため、我々はLATPC(Latent-space Adversarial Training with Post-aware Calibration framework)を導入する。
LATPCは有害な入力と良性入力を対比することにより安全クリティカルな潜伏次元を動的に同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
このメカニズムにより、敵の訓練は、有害なクエリを良心的なクエリとして偽装する現実世界の脱獄戦術に集中することができる。
推論中、LATPCは、計算オーバーヘッドが無視できない過剰な防御動作を最小限に抑えるために、効率的な埋め込みレベルのキャリブレーション機構を採用している。
5種類の偽装型ジェイルブレイク攻撃に対する実験結果から、LATPCは既存の防御フレームワークと比較して安全性と実用性のバランスが優れていることが示された。
さらなる分析は、ジェイルブレイク攻撃に対する堅牢な防御方法を開発する上で、安全クリティカルな次元を活用することの有効性を示す。
関連論文リスト
- LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。
ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文 参考訳(メタデータ) (2025-04-02T09:21:26Z) - STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models [31.35788474507371]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対してますます脆弱になっている。
本稿では,リアルタイムジェイルブレイク判定のための軽量フレームワークSTShieldを紹介する。
論文 参考訳(メタデータ) (2025-03-23T04:23:07Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning [21.423429565221383]
大規模言語モデル(LLM)は幅広いアプリケーションにとって不可欠だが、ジェイルブレイクの脅威を受けやすい。
有害な入力を積極的に評価するために,LSMの高機能化を利用した新しい防衛戦略であるセーフティ・チェーン・オブ・サート(SCoT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:45:23Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [57.86886012610389]
ジェイルブレイク攻撃は 意図しない 有害な出力を 引き起こす脆弱性を悪用する
私たちは、jailbreak攻撃を防御するために設計された新しい方法論であるLayer-AdvPatcherを紹介します。
我々は,2つのモデル,4つのベンチマークデータセット,および複数の最先端のジェイルブレイクベンチマークに関する広範な実験を行い,アプローチの有効性を実証した。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。