論文の概要: SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2508.15182v1
- Date: Thu, 21 Aug 2025 02:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.150783
- Title: SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks
- Title(参考訳): SafeLLM: 大規模言語モデルによる脱獄攻撃に対する有害なアウトプットの学習
- Authors: Xiangman Li, Xiaodong Wu, Qi Li, Jianbing Ni, Rongxing Lu,
- Abstract要約: ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
- 参考スコア(独自算出の注目度): 29.963044242980345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak attacks pose a serious threat to the safety of Large Language Models (LLMs) by crafting adversarial prompts that bypass alignment mechanisms, causing the models to produce harmful, restricted, or biased content. In this paper, we propose SafeLLM, a novel unlearning-based defense framework that unlearn the harmful knowledge from LLMs while preserving linguistic fluency and general capabilities. SafeLLM employs a three-stage pipeline: (1) dynamic unsafe output detection using a hybrid approach that integrates external classifiers with model-internal evaluations; (2) token-level harmful content tracing through feedforward network (FFN) activations to localize harmful knowledge; and (3) constrained optimization to suppress unsafe behavior without degrading overall model quality. SafeLLM achieves targeted and irreversible forgetting by identifying and neutralizing FFN substructures responsible for harmful generation pathways. Extensive experiments on prominent LLMs (Vicuna, LLaMA, and GPT-J) across multiple jailbreak benchmarks show that SafeLLM substantially reduces attack success rates while maintaining high general-purpose performance. Compared to standard defense methods such as supervised fine-tuning and direct preference optimization, SafeLLM offers stronger safety guarantees, more precise control over harmful behavior, and greater robustness to unseen attacks. Moreover, SafeLLM maintains the general performance after the harmful knowledge unlearned. These results highlight unlearning as a promising direction for scalable and effective LLM safety.
- Abstract(参考訳): 大規模な言語モデル(LLM)の安全性に対して、ジェイルブレイク攻撃は、アライメントメカニズムを回避し、モデルが有害で制限された、あるいはバイアスのあるコンテンツを生成させるという敵のプロンプトを作れば深刻な脅威となる。
本稿では,LLMから有害な知識を解放し,言語流布や汎用性を保ちつつ,新たな非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは,(1)外部分類器とモデル内部評価を統合したハイブリッドアプローチを用いた動的安全でない出力検出,(2)フィードフォワードネットワーク(FFN)アクティベートによる有害なコンテンツのトレースによる有害な知識のローカライズ,(3)モデル品質の劣化を伴わない安全でない動作の抑制のための制約付き最適化,という3段階のパイプラインを採用している。
SafeLLMは、有害な生成経路に関与するFFNサブ構造を同定し、中和することにより、標的的かつ不可逆的な忘れ方を実現する。
複数のジェイルブレイクベンチマークにおける顕著なLLM(Vicuna, LLaMA, GPT-J)の大規模な実験により、SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることが示された。
監督された微調整や直接選好最適化などの標準的な防御手法と比較して、SafeLLMはより強力な安全保証、有害な行動に対するより正確な制御、そして目に見えない攻撃に対する堅牢性を提供する。
さらに、SafeLLMは有害な知識が漏れた後、一般的なパフォーマンスを維持している。
これらの結果は、スケーラブルで効果的なLLM安全性のための有望な方向性として、アンラーニングを強調している。
関連論文リスト
- A Fragile Guardrail: Diffusion LLM's Safety Blessing and Its Failure Mode [51.43498132808724]
Diffusion large language model (D-LLMs) はjailbreak攻撃に対して本質的に堅牢であることを示す。
構成された良質なコンテキスト内に有害な要求が埋め込まれる、単純な、効果的な障害モードをコンテキストネストと呼ぶ。
この単純な戦略は、D-LLMの安全性を回避し、最先端の攻撃成功率を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2026-01-30T23:08:14Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Safe2Harm: Semantic Isomorphism Attacks for Jailbreaking Large Language Models [2.6986809342283262]
大規模言語モデル(LLM)は、様々なタスクにわたって例外的なパフォーマンスを示しているが、そのセキュリティ脆弱性は攻撃者が悪質なコンテンツを生成するために悪用することができる。
本稿では,4段階にわたる効率的な脱獄を実現するSafe2Harmセマンティックアイソモーフィック攻撃法を提案する。
7つの主要なLCMと3種類のベンチマークデータセットの実験は、Safe2Harmが強いジェイルブレイク能力を示していることを示している。
論文 参考訳(メタデータ) (2025-12-05T03:44:26Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。