論文の概要: On Jailbreaking Quantized Language Models Through Fault Injection Attacks
- arxiv url: http://arxiv.org/abs/2507.03236v2
- Date: Tue, 08 Jul 2025 20:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.049676
- Title: On Jailbreaking Quantized Language Models Through Fault Injection Attacks
- Title(参考訳): フォールトインジェクション攻撃による量子言語モデルのジェイルブレークについて
- Authors: Noureldin Zahran, Ahmad Tahmasivand, Ihsen Alouani, Khaled Khasawneh, Mohammed E. Fouda,
- Abstract要約: 言語モデル(LM)の安全性の整合性は重要な問題であるが、それらの整合性は直接パラメータ操作による攻撃によって解決される。
本稿では, 異なる量子化方式におけるジェイルブレイクアライメント LM に対する攻撃の有効性について検討する。
- 参考スコア(独自算出の注目度): 3.5902882430875174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safety alignment of Language Models (LMs) is a critical concern, yet their integrity can be challenged by direct parameter manipulation attacks, such as those potentially induced by fault injection. As LMs are increasingly deployed using low-precision quantization for efficiency, this paper investigates the efficacy of such attacks for jailbreaking aligned LMs across different quantization schemes. We propose gradient-guided attacks, including a tailored progressive bit-level search algorithm introduced herein and a comparative word-level (single weight update) attack. Our evaluation on Llama-3.2-3B, Phi-4-mini, and Llama-3-8B across FP16 (baseline), and weight-only quantization (FP8, INT8, INT4) reveals that quantization significantly influences attack success. While attacks readily achieve high success (>80% Attack Success Rate, ASR) on FP16 models, within an attack budget of 25 perturbations, FP8 and INT8 models exhibit ASRs below 20% and 50%, respectively. Increasing the perturbation budget up to 150 bit-flips, FP8 models maintained ASR below 65%, demonstrating some resilience compared to INT8 and INT4 models that have high ASR. In addition, analysis of perturbation locations revealed differing architectural targets across quantization schemes, with (FP16, INT4) and (INT8, FP8) showing similar characteristics. Besides, jailbreaks induced in FP16 models were highly transferable to subsequent FP8/INT8 quantization (<5% ASR difference), though INT4 significantly reduced transferred ASR (avg. 35% drop). These findings highlight that while common quantization schemes, particularly FP8, increase the difficulty of direct parameter manipulation jailbreaks, vulnerabilities can still persist, especially through post-attack quantization.
- Abstract(参考訳): 言語モデル(LM)の安全性の整合性は重要な懸念事項であるが、それらの整合性は、障害注入によって引き起こされる可能性があるような直接的なパラメータ操作による攻撃によって解決される。
本稿では,低精度量子化による効率向上が進みつつあり,異なる量子化スキームをまたいだジェイルブレイクアライメント型LMに対する攻撃の有効性について検討する。
本稿では,ここで導入されたプログレッシブビットレベル探索アルゴリズムや,比較語レベル(単重更新)攻撃など,勾配誘導攻撃を提案する。
FP16(ベースライン)におけるLlama-3.2-3B,Phi-4-mini,Llama-3-8Bの定量化(FP8,INT8,INT4)は,攻撃成功に有意な影響を及ぼすことを示した。
攻撃はFP16モデル上で容易に高い成功率(>80%アタック成功率、ASR)を達成するが、25の摂動の攻撃予算では、FP8モデルとINT8モデルはそれぞれ20%未満と50%未満のASRを示す。
摂動予算を最大150ビットフリップに増やし、FP8モデルはASRを65%以下に維持し、高いASRを持つINT8やINT4と比べて若干の弾力性を示した。
さらに, 摂動位置の解析により, (FP16, INT4) と (INT8, FP8) が類似した特性を示した。
さらに、FP16モデルで誘導されるジェイルブレイクは、後のFP8/INT8量子化(ASR差の5%)に高度に転送可能であったが、INT4は転送されたASRを著しく削減した(約35%の減少)。
これらの知見は、一般的な量子化スキーム、特にFP8は、直接パラメータ操作によるジェイルブレイクの難しさを増大させるが、脆弱性は、特に攻撃後の量子化によって持続できることを示している。
関連論文リスト
- Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization [74.78433600288776]
HKVE (Hierarchical Key-Value Equalization) は、勾配最適化結果を選択的に受け入れる革新的なジェイルブレイクフレームワークである。
HKVEは既存の手法を20.43%,21.01%,26.43%のマージンで大幅に上回った。
論文 参考訳(メタデータ) (2025-03-14T17:57:42Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - To FP8 and Back Again: Quantifying Reduced Precision Effects on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。
しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。
自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:42:23Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。