論文の概要: Safety-Potential Pruning for Enhancing Safety Prompts Against VLM Jailbreaking Without Retraining
- arxiv url: http://arxiv.org/abs/2603.14219v1
- Date: Sun, 15 Mar 2026 04:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.678906
- Title: Safety-Potential Pruning for Enhancing Safety Prompts Against VLM Jailbreaking Without Retraining
- Title(参考訳): VLM脱獄防止対策の安全性向上策
- Authors: Chongxin Li, Hanzhang Wang, Lian Duan,
- Abstract要約: 安全プロンプトは、視覚言語モデルにおけるジェイルブレイク攻撃に対する解釈可能な防御層を構成する。
安全関連アクティベーションを増幅するワンショットプルーニングフレームワークであるSafety-Potential Pruningを紹介する。
本手法は,攻撃成功率を単独で最大22%削減すると同時に,強靭な性能を維持しながら,単独で攻撃成功率を22%削減する。
- 参考スコア(独自算出の注目度): 3.347328024911274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety prompts constitute an interpretable layer of defense against jailbreak attacks in vision-language models (VLMs); however, their efficacy is constrained by the models' latent structural responsiveness. We observe that such prompts consistently engage a sparse set of parameters that remain largely quiescent during benign use. This finding motivates the Safety Subnetwork Hypothesis: VLMs embed structurally distinct pathways capable of enforcing safety, but these pathways remain dormant without explicit stimulation. To expose and amplify these pathways, we introduce Safety-Potential Pruning, a one-shot pruning framework that amplifies safety-relevant activations by removing weights that are less responsive to safety prompts without additional retraining. Across three representative VLM architectures and three jailbreak benchmarks, our method reduces attack success rates by up to 22% relative to prompting alone, all while maintaining strong benign performance. These findings frame pruning not only as a model compression technique, but as a structural intervention to emerge alignment-relevant subnets, offering a new path to robust jailbreak resistance.
- Abstract(参考訳): 安全プロンプトは視覚言語モデル(VLM)におけるジェイルブレイク攻撃に対する解釈可能な防御層を構成するが、その有効性はモデルの構造的応答性によって制限される。
このようなプロンプトは、良心的使用中にほとんど不規則なパラメータのスパースセットに一貫して関与することを観察する。
この発見はセーフティ・サブネットの仮説を動機付けている: VLMは構造的に異なる経路を埋め込んで安全を強制するが、これらの経路は明示的な刺激なしで休息状態のままである。
これらの経路を公開・増幅するために,一発のプルーニングフレームワークであるSafety-Potential Pruningを導入する。
3つの代表的なVLMアーキテクチャと3つのジェイルブレイクベンチマークで、攻撃成功率を22%まで削減し、高い良質な性能を維持しながら、単独で攻撃を誘発する。
これらの発見は、モデル圧縮技術としてだけでなく、アライメント関連サブネットを創出するための構造的介入として、堅牢なジェイルブレイク抵抗への新たな経路を提供する。
関連論文リスト
- SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment [43.86865924673546]
軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-01-23T07:12:53Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Understanding and Preserving Safety in Fine-Tuned LLMs [20.821783178639063]
微調整データが無害であっても、微調整は安全性を著しく低下させる可能性がある。
低ランクな安全部分空間と矛盾する勾配成分を明示的に除去する軽量なアプローチSPFを提案する。
SPFは、ダウンストリームタスクのパフォーマンスを一貫して維持し、敵の微調整シナリオであっても、トレーニング済みのほぼすべての安全アライメントを回復する。
論文 参考訳(メタデータ) (2026-01-15T07:33:13Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - EASE: Practical and Efficient Safety Alignment for Small Language Models [4.839980912290382]
小型言語モデル(SLM)は、エッジデバイスにますますデプロイされ、安全性の整合性は重要でありながら困難である。
小型ランガグモデルに対する実用的で効率的な安全アライメントを実現するための新しいフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2025-11-09T19:46:54Z) - Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerability [5.650647159993238]
拡散言語モデル (DLMs) は反復的 denoising を通じてトークンを並列に生成する。
本稿では, DLM が反復的 denoising プロセスから生じる致命的な脆弱性を明らかにする。
汚染された中間状態から安全な応答を生成するためにモデルを訓練するDLMに適した新しい安全アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:35:23Z) - Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal Direction [21.03567306455414]
大規模言語モデル(LLM)に永続的な脅威をもたらす脱獄攻撃
私たちはこれらの問題を克服する堅牢な安全アライメントフレームワークであるDeepRefusalを紹介します。
本手法は,性能劣化を最小限に抑えながら,攻撃成功率を約95%削減する。
論文 参考訳(メタデータ) (2025-09-18T17:54:31Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。