論文の概要: Unraveling LLM Jailbreaks Through Safety Knowledge Neurons
- arxiv url: http://arxiv.org/abs/2509.01631v1
- Date: Mon, 01 Sep 2025 17:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.796466
- Title: Unraveling LLM Jailbreaks Through Safety Knowledge Neurons
- Title(参考訳): LLMの脱獄は、安全知識ニューロンを介する
- Authors: Chongwen Zhao, Kaizhu Huang,
- Abstract要約: 本稿では,安全関連知識ニューロンの役割に焦点をあてた新しいニューロンレベルの解釈可能性手法を提案する。
安全性関連ニューロンの活性化の調節は,平均的ASRを97%以上で効果的に制御できることが示唆された。
我々は,モデルロバスト性を改善するために,安全クリティカルニューロンを強化する微調整戦略であるSafeTuningを提案する。
- 参考スコア(独自算出の注目度): 26.157477756143166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly attracting attention in various applications. Nonetheless, there is a growing concern as some users attempt to exploit these models for malicious purposes, including the synthesis of controlled substances and the propagation of disinformation, a technique known as "Jailbreak." While some studies have achieved defenses against jailbreak attacks by modifying output distributions or detecting harmful content, the exact rationale still remains elusive. In this work, we present a novel neuron-level interpretability method that focuses on the role of safety-related knowledge neurons. Unlike existing approaches, our method projects the model's internal representation into a more consistent and interpretable vocabulary space. We then show that adjusting the activation of safety-related neurons can effectively control the model's behavior with a mean ASR higher than 97%. Building on this insight, we propose SafeTuning, a fine-tuning strategy that reinforces safety-critical neurons to improve model robustness against jailbreaks. SafeTuning consistently reduces attack success rates across multiple LLMs and outperforms all four baseline defenses. These findings offer a new perspective on understanding and defending against jailbreak attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションで注目を集めている。
しかし、制御された物質の合成や偽情報の伝播など、悪質な目的のためにこれらのモデルを活用しようとするユーザもいるため、懸念が高まっている。
いくつかの研究は、出力分布を変更したり有害な内容を検出することによって、ジェイルブレイク攻撃に対する防御を達成してきたが、正確な根拠はいまだ解明されていない。
本研究では,安全関連知識ニューロンの役割に焦点をあてた,新しいニューロンレベルの解釈可能性手法を提案する。
既存の手法とは異なり、我々の手法はモデルの内部表現をより一貫性があり解釈可能な語彙空間に投影する。
次に,安全性関連ニューロンの活性化を調節することで,平均的ASRを97%以上で効果的にモデル動作を制御することができることを示す。
この知見に基づいて、安全クリティカルニューロンを強化し、ジェイルブレイクに対するモデル堅牢性を改善するための微調整戦略であるSafeTuningを提案する。
SafeTuningは、複数のLDMの攻撃成功率を一貫して低減し、4つのベースラインディフェンスをすべて上回る。
これらの発見は、ジェイルブレイク攻撃に対する理解と防御に関する新たな視点を提供する。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。
ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。
我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。