論文の概要: Alignment-Aware Quantization for LLM Safety
- arxiv url: http://arxiv.org/abs/2511.07842v1
- Date: Wed, 12 Nov 2025 01:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.503725
- Title: Alignment-Aware Quantization for LLM Safety
- Title(参考訳): LLM安全のためのアライメントアウェア量子化
- Authors: Sunghyun Wee, Suyoung Kim, Hyeonjin Kim, Kyomin Hwang, Nojun Kwak,
- Abstract要約: 大規模言語モデル(LLM)をデプロイする際の安全性と効率性は重要な要素である
本稿では、アライメント保存コントラスト(APC)損失をPTQパイプラインに統合する新しいアプローチであるアライメント・アウェア量子化(AAQ)を提案する。
AAQは標準のPTQ技術と互換性があり、様々なモデルファミリで堅牢な4ビット(W4A4)量子化を可能にする。
- 参考スコア(独自算出の注目度): 30.635936212381726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety and efficiency are both important factors when deploying large language models(LLMs). LLMs are trained to follow human alignment for safety, and post training quantization(PTQ) is applied afterward for efficiency. However, these two objectives are often in conflict, revealing a fundamental flaw in the conventional PTQ paradigm: quantization can turn into a safety vulnerability if it only aims to achieve low perplexity. Models can demonstrate low perplexity yet exhibit significant degradation in alignment with the safety policy, highlighting that perplexity alone is an insufficient and often misleading proxy for model safety. To address this, we propose Alignment-Aware Quantization(AAQ), a novel approach that integrates Alignment-Preserving Contrastive(APC) loss into the PTQ pipeline. Compared to simple reconstruction loss, ours explicitly preserves alignment by encouraging the quantized model to mimic its safe, instruction-tuned model while diverging from the unaligned, pre-trained counterpart. Our method achieves this robust safety alignment without resorting to specialized safety-focused calibration datasets, highlighting its practical utility and broad applicability. AAQ is compatible with standard PTQ techniques and enables robust 4-bit (W4A4) quantization across diverse model families such as LLaMA, Qwen, and Mistral while maintaining safety where previous methods fail. Our work resolves the critical trade-off between efficiency and safety, paving the way toward LLMs that are both efficient and trustworthy. Anonymized code is available in the supplementary material.
- Abstract(参考訳): 安全性と効率性は、大きな言語モデル(LLM)をデプロイする際の重要な要素である。
LLMは安全性のために人間のアライメントに従うように訓練され、後続のトレーニング量子化(PTQ)が効率のために適用される。
しかし、これらの2つの目的はしばしば矛盾しており、従来のPTQパラダイムの根本的な欠陥が明らかになっている。
モデルは、低いパープレキシティを示すことができるが、安全性ポリシーに沿った大幅な劣化を示し、パープレキシティのみがモデル安全性のための不十分で、しばしば誤解を招くプロキシであることを強調している。
そこで本研究では,APC(Alignment-Preserving Contrastive)損失をPTQパイプラインに統合する新しいアプローチであるAlignment-Aware Quantization(AAQ)を提案する。
簡単な再構成損失と比較すると、量子化モデルに、非整合的、事前訓練されたモデルから分岐しながら、その安全な命令調整されたモデルを模倣するよう促すことにより、アライメントを明示的に維持する。
本手法は, 安全性に特化した校正データセットを使わずに, この堅牢な安全性アライメントを実現し, 実用性と幅広い適用性を強調した。
AAQは標準のPTQ技術と互換性があり、LLaMA、Qwen、Mistralといった様々なモデルファミリをまたいだ堅牢な4ビット(W4A4)量子化を可能にし、従来の手法が失敗する際の安全性を維持している。
我々の研究は、効率性と安全性の重大なトレードオフを解決し、効率的かつ信頼性の高いLCMへの道を開く。
匿名化されたコードは補足資料で利用可能である。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Q-resafe: Assessing Safety Risks and Quantization-aware Safety Patching for Quantized Large Language Models [37.68831497886983]
LLM(Quantized Large Language Model)は、リソース制約のある環境へのデプロイを可能にする上で、注目と重要性を高めている。
本稿では,様々な主要な量子化手法と多様なキャリブレーションデータセットにまたがる包括的安全性評価について述べる。
本稿では,量子化LLMの安全性を効率的に回復する,量子化対応型安全性パッチフレームワークQ-resafeを提案する。
論文 参考訳(メタデータ) (2025-06-25T08:52:22Z) - Learning Safety Constraints for Large Language Models [41.95596134688853]
大規模言語モデル(LLM)は有害なアウトプットと敵の攻撃に対する脆弱性を通じて重大な安全リスクを生じさせる。
モデル表現空間において,複数の安全制約を直接学習し,適用する,安全のための幾何学的アプローチであるSaPを提案する。
我々は,ポリトープのファセットを介して安全かつ安全でない領域を識別し,安全でない出力の検出と修正を可能にするフレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-30T10:30:24Z) - Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models [16.30545036335344]
モデル動作を厳格に評価するために、1.067の課題を伴う人為的な安全データセットをリリースする。
4つの学習後量子化(PTQ)法と2つの量子化対応訓練(QAT)法を用いて、4つの大言語モデルの66の量子化変種を評価する。
以上の結果から,PTQとQATは安全アライメントの低下を招き,QLORAやSTEなどのQAT技術は安全性の低下を図っている。
論文 参考訳(メタデータ) (2025-02-18T20:32:05Z) - Superficial Safety Alignment Hypothesis [15.215130286922564]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択することを示唆する,表層安全アライメント仮説(SSAH)を提案する。
属性クリティカルなコンポーネントは,安全性クリティカルユニット(SCU),ユーティリティクリティカルユニット(UCU),コンプレックスユニット(CU),冗長ユニット(RU)の4種類に分類する。
実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。