論文の概要: Adversarial Contrastive Learning for LLM Quantization Attacks
- arxiv url: http://arxiv.org/abs/2601.02680v1
- Date: Tue, 06 Jan 2026 03:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.787008
- Title: Adversarial Contrastive Learning for LLM Quantization Attacks
- Title(参考訳): LLM量子化攻撃に対する逆相関学習
- Authors: Dinghong Song, Zhiwei Xu, Hai Wan, Xibin Zhao, Pengfei Su, Dong Li,
- Abstract要約: Adversarial Contrastive Learning (ACL) は、より優れた攻撃効率を実現する勾配に基づく量子化攻撃である。
ACLは、攻撃目標を三重項に基づくコントラスト損失として定式化し、投射された降下二段分散微調整戦略と統合する。
実験では、ACLの顕著な効果が示され、攻撃成功率86.00%が過剰拒絶、97.69%が脱獄、92.40%が広告インジェクションである。
- 参考スコア(独自算出の注目度): 28.158356717114845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model quantization is critical for deploying large language models (LLMs) on resource-constrained hardware, yet recent work has revealed severe security risks that benign LLMs in full precision may exhibit malicious behaviors after quantization. In this paper, we propose Adversarial Contrastive Learning (ACL), a novel gradient-based quantization attack that achieves superior attack effectiveness by explicitly maximizing the gap between benign and harmful responses probabilities. ACL formulates the attack objective as a triplet-based contrastive loss, and integrates it with a projected gradient descent two-stage distributed fine-tuning strategy to ensure stable and efficient optimization. Extensive experiments demonstrate ACL's remarkable effectiveness, achieving attack success rates of 86.00% for over-refusal, 97.69% for jailbreak, and 92.40% for advertisement injection, substantially outperforming state-of-the-art methods by up to 44.67%, 18.84%, and 50.80%, respectively.
- Abstract(参考訳): モデル量子化は、リソース制約のあるハードウェアに大規模言語モデル(LLM)をデプロイするために重要であるが、最近の研究は、LLMを完全精度で無視する重大なセキュリティリスクが、量子化後に悪意のある振る舞いを示す可能性があることを明らかにしている。
本稿では、良性と有害な応答確率のギャップを明示的に最大化することにより、攻撃効率を向上する、新しい勾配に基づく量子化攻撃であるAdversarial Contrastive Learning (ACL)を提案する。
ACLは、攻撃目標を三重項に基づくコントラスト損失として定式化し、投射された勾配降下二段分散微調整戦略と統合し、安定かつ効率的な最適化を実現する。
大規模な実験では、ACLの攻撃成功率86.00%が過剰拒絶、97.69%が脱獄、92.40%が広告注入であり、それぞれ44.67%、18.84%、50.80%が最先端である。
関連論文リスト
- SASER: Stego attacks on open-source LLMs [14.7664610166861]
SASERはオープンソースの大規模言語モデル(LLM)に対する最初のステゴ攻撃である
ターゲットパラメータの特定、ペイロードの埋め込み、トリガのインジェクション、ペイロードのシーケンシャル実行を通じて影響を緩和する。
LlaMA2-7BとChatGLM3-6Bを量子化せずに実験したところ、SASERは既存のステゴ攻撃を最大98.1%上回った。
論文 参考訳(メタデータ) (2025-10-12T07:33:56Z) - Transferable Direct Prompt Injection via Activation-Guided MCMC Sampling [30.157082498075315]
直接プロンプトインジェクション(DPI)攻撃は、実行の障壁が低く、潜在的なダメージが大きいため、大規模言語モデル(LLM)に重大なセキュリティ上の脅威をもたらす。
既存のホワイトボックス/グレイボックス方式の非現実性とブラックボックス方式の転送容易性に対処するために,アクティベーション誘導型プロンプトインジェクション攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-09T11:42:06Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization [74.78433600288776]
HKVE (Hierarchical Key-Value Equalization) は、勾配最適化結果を選択的に受け入れる革新的なジェイルブレイクフレームワークである。
HKVEは既存の手法を20.43%,21.01%,26.43%のマージンで大幅に上回った。
論文 参考訳(メタデータ) (2025-03-14T17:57:42Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Membership Inference Attacks Against In-Context Learning [26.57639819629732]
In-Context Learning (ICL) に適した最初のメンバシップ推論攻撃を提案する。
様々な制約シナリオに合わせた4つの攻撃戦略を提案する。
本稿では,データ,命令,出力を対象とする3つの潜在的防御について検討する。
論文 参考訳(メタデータ) (2024-09-02T17:23:23Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。