論文の概要: Pruning Unsafe Tickets: A Resource-Efficient Framework for Safer and More Robust LLMs
- arxiv url: http://arxiv.org/abs/2604.15780v1
- Date: Fri, 17 Apr 2026 07:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.794079
- Title: Pruning Unsafe Tickets: A Resource-Efficient Framework for Safer and More Robust LLMs
- Title(参考訳): Pruning Unsafe Tickets: より安全でロバストなLLMのためのリソース効率の良いフレームワーク
- Authors: Wai Man Si, Mingjie Li, Michael Backes, Yang Zhang,
- Abstract要約: 現在のアライメントメソッドは、有害なアウトプットを引き起こすアンセーフワークを明示的に削除しない。
本研究では,安全でない動作に関連するパラメータを直接識別し,除去する資源効率の高いプルーニングフレームワークを提案する。
MLモデルに対する実証的な評価では、安全でない世代が大幅に減少し、脱獄攻撃に対する堅牢性が向上し、実用性は最小限に抑えられた。
- 参考スコア(独自算出の注目度): 23.758453206408102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models are increasingly deployed in real-world applications, but even aligned models such as Mistral and LLaVA still exhibit unsafe behaviors inherited from pre-training. Current alignment methods like SFT and RLHF primarily encourage models to generate preferred responses, but do not explicitly remove the unsafe subnetworks that trigger harmful outputs. In this work, we introduce a resource-efficient pruning framework that directly identifies and removes parameters associated with unsafe behaviors while preserving model utility. Our method employs a gradient-free attribution mechanism, requiring only modest GPU resources, and generalizes across architectures and quantized variants. Empirical evaluations on ML models show substantial reductions in unsafe generations and improved robustness against jailbreak attacks, with minimal utility loss. From the perspective of the Lottery Ticket Hypothesis, our results suggest that ML models contain "unsafe tickets" responsible for harmful behaviors, and pruning reveals "safety tickets" that maintain performance while aligning outputs. This provides a lightweight, post-hoc alignment strategy suitable for deployment in resource-constrained settings.
- Abstract(参考訳): 機械学習モデルは、現実世界のアプリケーションにますますデプロイされているが、MistralやLLaVAのようなアライメントされたモデルでさえ、事前トレーニングから継承された安全でない振る舞いを示している。
SFTやRLHFのような現在のアライメント手法は、主にモデルに望ましい応答を生成するよう奨励するが、有害な出力を引き起こす安全でないサブネットを明示的に削除しない。
本研究では、モデルユーティリティを保ちながら、安全でない振る舞いに関連するパラメータを直接識別し、除去するリソース効率の高いプルーニングフレームワークを提案する。
提案手法では,GPUリソースを必要とせず,アーキテクチャや量子化変種をまたいだ一般化を行う。
MLモデルに対する実証的な評価では、安全でない世代が大幅に減少し、脱獄攻撃に対する堅牢性が向上し、実用性は最小限に抑えられた。
Lottery Ticket仮説の観点からは、MLモデルには有害な行動の原因となる「安全でないチケット」が含まれており、プルーニングでは、出力を調整しながらパフォーマンスを維持する「安全チケット」が明らかにされている。
これにより、リソース制約のある設定でのデプロイメントに適した、軽量でポストホックなアライメント戦略が提供される。
関連論文リスト
- Principled Steering via Null-space Projection for Jailbreak Defense in Vision-Language Models [71.11171576590134]
視覚言語モデルは視覚的ジェイルブレイク攻撃によって容易に誘導され、有害なコンテンツを生成する。
本稿では,NullSteerを提案する。
我々はNullSteerが様々なジェイルブレイク攻撃において有害な出力を著しく減少させることを示す。
論文 参考訳(メタデータ) (2026-03-23T15:23:23Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - SABER: Uncovering Vulnerabilities in Safety Alignment via Cross-Layer Residual Connection [16.38885847999291]
セーフアライメントトレーニングを備えた大規模言語モデル(LLM)は、堅牢な言語理解能力を備えた強力な機器である。
2つの中間層を$s$と$e$で接続し、残余接続を通じて$s e$と$e$を接続する新しいホワイトボックスジェイルブレイク手法であるSABERを導入する。
提案手法は,HarmBenchテストセット上での最高性能ベースラインよりも51%向上する。
論文 参考訳(メタデータ) (2025-09-19T15:10:19Z) - STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models [31.35788474507371]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対してますます脆弱になっている。
本稿では,リアルタイムジェイルブレイク判定のための軽量フレームワークSTShieldを紹介する。
論文 参考訳(メタデータ) (2025-03-23T04:23:07Z) - Do LLMs Understand the Safety of Their Inputs? Training-Free Moderation via Latent Prototypes [1.0779346838250028]
ラテントプロトタイプモデレータ (LPM) は、ラテント空間におけるマハラノビス距離を用いて入力安全性を評価する訓練のないモデレーション手法である。
LPMは、複数の安全ベンチマークで最先端のガードモデルと一致または超えている。
論文 参考訳(メタデータ) (2025-02-22T10:31:50Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。