論文の概要: Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment
- arxiv url: http://arxiv.org/abs/2601.08089v1
- Date: Tue, 13 Jan 2026 00:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.986631
- Title: Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment
- Title(参考訳): Q-realign: 安全かつ効率的なLLMデプロイメントのための量子化のピギーバック実現
- Authors: Qitao Tan, Xiaoying Song, Ningxi Cheng, Ninghao Liu, Xiaoming Zhai, Lingzi Hong, Yanzhi Wang, Zhen Xiang, Geng Yuan,
- Abstract要約: 既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
- 参考スコア(独自算出の注目度): 55.14890249389052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Public large language models (LLMs) are typically safety-aligned during pretraining, yet task-specific fine-tuning required for deployment often erodes this alignment and introduces safety risks. Existing defenses either embed safety recovery into fine-tuning or rely on fine-tuning-derived priors for post-hoc correction, leaving safety recovery tightly coupled with training and incurring high computational overhead and a complex workflow. To address these challenges, we propose \texttt{Q-realign}, a post-hoc defense method based on post-training quantization, guided by an analysis of representational structure. By reframing quantization as a dual-objective procedure for compression and safety, \texttt{Q-realign} decouples safety alignment from fine-tuning and naturally piggybacks into modern deployment pipelines. Experiments across multiple models and datasets demonstrate that our method substantially reduces unsafe behaviors while preserving task performance, with significant reductions in memory usage and GPU hours. Notably, our approach can recover the safety alignment of a fine-tuned 7B LLM on a single RTX 4090 within 40 minutes. Overall, our work provides a practical, turnkey solution for safety-aware deployment.
- Abstract(参考訳): 公共の大規模言語モデル(LLM)は、通常、事前訓練中に安全に整列するが、デプロイに必要なタスク固有の微調整は、このアライメントを損なうことがあり、安全リスクをもたらす。
既存の防御は、微調整に安全性回復を組み込むか、微調整による修正に先立って微調整を頼り、安全性回復はトレーニングと密結合し、高い計算オーバーヘッドと複雑なワークフローを発生させる。
これらの課題に対処するために, ポストトレーニング後の量子化に基づくポストホック防御法である \texttt{Q-realign} を提案する。
量子化を圧縮と安全性のための二重目的の手順として再定義することで、 \texttt{Q-realign} は安全アライメントを微調整と自然なピギーバックから現代のデプロイメントパイプラインに分離する。
複数のモデルとデータセットを対象とした実験により,タスク性能を維持しながら安全でない動作を大幅に削減し,メモリ使用量やGPU使用時間を大幅に削減した。
特に, RTX 4090に微調整した7B LLMの安全性アライメントを40分以内で回収できる。
全体的な作業は、安全を意識したデプロイメントのための、実用的なターンキーソリューションを提供します。
関連論文リスト
- Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance [20.0828672005664]
安全アライメントは, 単一の安全事例のみで完全に回復可能であることを示す。
安全勾配の低ランク構造を明らかにし,なぜこのような効率的な補正が可能かを説明する。
論文 参考訳(メタデータ) (2026-01-05T08:26:34Z) - Alignment-Aware Quantization for LLM Safety [30.635936212381726]
大規模言語モデル(LLM)をデプロイする際の安全性と効率性は重要な要素である
本稿では、アライメント保存コントラスト(APC)損失をPTQパイプラインに統合する新しいアプローチであるアライメント・アウェア量子化(AAQ)を提案する。
AAQは標準のPTQ技術と互換性があり、様々なモデルファミリで堅牢な4ビット(W4A4)量子化を可能にする。
論文 参考訳(メタデータ) (2025-11-11T05:24:30Z) - A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space [91.99501941169831]
GuardSpaceは、微調整全体を通して安全アライメントを維持するためのガードレールフレームワークである。
GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れている。
論文 参考訳(メタデータ) (2025-10-16T04:57:53Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [47.33307521558814]
下流タスクのための微調整された大型言語モデル(LLM)は、しばしば破滅的な忘れを招きます。
プレファインモデルとポストファインモデルとの重み付けを単純に組み合わせれば安全性の低下が軽減され,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。