論文の概要: Fewer Weights, More Problems: A Practical Attack on LLM Pruning
- arxiv url: http://arxiv.org/abs/2510.07985v1
- Date: Thu, 09 Oct 2025 09:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.983687
- Title: Fewer Weights, More Problems: A Practical Attack on LLM Pruning
- Title(参考訳): 重量不足, 問題点: LLM プルーニングの実践的攻撃
- Authors: Kazuki Egashira, Robin Staab, Thibaud Gloaguen, Mark Vero, Martin Vechev,
- Abstract要約: 最新のLCMプルーニング手法を悪質に悪用できることを示す。
提案手法は,各パラメータがプルーニングされる確率を推定するプロキシメトリックを,敵が計算できるという考えに基づいている。
5つのモデルに対する広範囲な評価を通じて,攻撃の重大さを実証する。
- 参考スコア(独自算出の注目度): 17.31903635101698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model pruning, i.e., removing a subset of model weights, has become a prominent approach to reducing the memory footprint of large language models (LLMs) during inference. Notably, popular inference engines, such as vLLM, enable users to conveniently prune downloaded models before they are deployed. While the utility and efficiency of pruning methods have improved significantly, the security implications of pruning remain underexplored. In this work, for the first time, we show that modern LLM pruning methods can be maliciously exploited. In particular, an adversary can construct a model that appears benign yet, once pruned, exhibits malicious behaviors. Our method is based on the idea that the adversary can compute a proxy metric that estimates how likely each parameter is to be pruned. With this information, the adversary can first inject a malicious behavior into those parameters that are unlikely to be pruned. Then, they can repair the model by using parameters that are likely to be pruned, effectively canceling out the injected behavior in the unpruned model. We demonstrate the severity of our attack through extensive evaluation on five models; after any of the pruning in vLLM are applied (Magnitude, Wanda, and SparseGPT), it consistently exhibits strong malicious behaviors in a diverse set of attack scenarios (success rates of up to $95.7\%$ for jailbreak, $98.7\%$ for benign instruction refusal, and $99.5\%$ for targeted content injection). Our results reveal a critical deployment-time security gap and underscore the urgent need for stronger security awareness in model compression.
- Abstract(参考訳): モデルプルーニング(モデルプルーニング)、すなわちモデル重みのサブセットを削除することは、推論中に大きな言語モデル(LLM)のメモリフットプリントを減らすための顕著なアプローチとなっている。
特に、vLLMのような一般的な推論エンジンは、ユーザがデプロイ前にダウンロードしたモデルを都合よくプルーすることを可能にする。
プルーニング法の有用性と効率は著しく改善されているが, プルーニングのセキュリティへの影響は未解明のままである。
本研究は,近代LLM刈り出し法を悪用できることを初めて示したものである。
特に、敵対者は、良心のように見えるモデルを構築することができ、一度刈り取られると悪意のある振る舞いを示す。
提案手法は,各パラメータがプルーニングされる確率を推定するプロキシメトリックを,敵が計算できるという考えに基づいている。
この情報により、敵はまず悪質な振る舞いを、刈り取られる可能性が低いパラメータに注入することができる。
そして、刈り取られる可能性のあるパラメータを使用してモデルを修復し、未刈り込みモデルにおける注入された振る舞いを効果的にキャンセルする。
vLLMのプルーニングが適用された後(Magnitude, Wanda, SparseGPT)、さまざまな攻撃シナリオ(jailbreakで最大9.7 %、良心的命令拒否で9.7 %、ターゲットコンテンツインジェクションで99.5 %)において、強い悪意のある振る舞いを継続的に示します。
以上の結果から,モデル圧縮におけるセキュリティ意識の強化の必要性が浮き彫りになった。
関連論文リスト
- CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。
我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。
この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文 参考訳(メタデータ) (2025-05-22T11:47:08Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - QUEEN: Query Unlearning against Model Extraction [22.434812818540966]
モデル抽出攻撃は、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となる。
本稿では,QUEEN(QUEry unlEarNing)を提案する。
論文 参考訳(メタデータ) (2024-07-01T13:01:41Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。