論文の概要: Preserving Fairness and Safety in Quantized LLMs Through Critical Weight Protection
- arxiv url: http://arxiv.org/abs/2601.12033v1
- Date: Sat, 17 Jan 2026 12:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.429098
- Title: Preserving Fairness and Safety in Quantized LLMs Through Critical Weight Protection
- Title(参考訳): 臨界重み保護による量子化LDMの公正性と安全性の保全
- Authors: Muhammad Alif Al Hakim, Alfan Farizki Wicaksono, Fajri Koto,
- Abstract要約: 本研究では,静的および動的量子化手法が,本質的および外生的バイアスと安全性アライメントを測定するベンチマークにおいて,公正性と安全性に与える影響について検討した。
公平性については、英語、フランス語、オランダ語、スペイン語、トルコ語を評価します。
本稿では,量子化時の公正度と安全性と重みを識別・保存する新しい手法であるCritical Weight Protectionを紹介する。
- 参考スコア(独自算出の注目度): 12.263642529535987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is widely adopted to reduce the computational cost of large language models (LLMs); however, its implications for fairness and safety, particularly in dynamic quantization and multilingual contexts, remain underexplored. In this work, we conduct a systematic study of how static and dynamic quantization methods impact fairness and safety across benchmarks measuring intrinsic and extrinsic bias and safety alignment. For fairness, we evaluate English, French, Dutch, Spanish, and Turkish; for safety, we focus on English, Korean, and Arabic. Our findings reveal that quantization consistently degrades fairness and safety, with dynamic methods demonstrating greater stability than static ones. Moreover, fairness degradation varies across languages, while safety deterioration is especially pronounced in non-English settings. To address these risks, we introduce Critical Weight Protection, a novel technique that identifies and preserves fairness- and safety-critical weights during quantization. This approach effectively mitigates bias and safety deterioration without costly retraining or alignment, maintaining trustworthiness while retaining efficiency.
- Abstract(参考訳): 量子化は、大規模言語モデル(LLMs)の計算コストを削減するために広く採用されているが、特に動的量子化や多言語文脈において、その公正性と安全性に対する意味は未解明のままである。
本研究では,静的および動的量子化手法が,本質的および外生的バイアスと安全性アライメントを測定するベンチマークにおいて,公正性と安全性にどのように影響するかを系統的に検討する。
公平性については、英語、フランス語、オランダ語、スペイン語、トルコ語を評価します。
その結果,量子化は安定度と安全性を常に低下させ,動的手法は静的手法よりも高い安定性を示すことがわかった。
さらに、フェアネスの劣化は言語によって異なるが、特に英語以外の環境では安全性の劣化が顕著である。
これらのリスクに対処するために、量子化中の公正度と安全クリティカルウェイトを特定し保存する新しい手法であるCritical Weight Protectionを導入する。
このアプローチは、コストのかかる再トレーニングやアライメントをすることなく、バイアスと安全性の低下を効果的に軽減し、効率を維持しながら信頼性を維持します。
関連論文リスト
- UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Q-resafe: Assessing Safety Risks and Quantization-aware Safety Patching for Quantized Large Language Models [37.68831497886983]
LLM(Quantized Large Language Model)は、リソース制約のある環境へのデプロイを可能にする上で、注目と重要性を高めている。
本稿では,様々な主要な量子化手法と多様なキャリブレーションデータセットにまたがる包括的安全性評価について述べる。
本稿では,量子化LLMの安全性を効率的に回復する,量子化対応型安全性パッチフレームワークQ-resafeを提案する。
論文 参考訳(メタデータ) (2025-06-25T08:52:22Z) - Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。
学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。
我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文 参考訳(メタデータ) (2025-06-03T11:17:07Z) - Safe at the Margins: A General Approach to Safety Alignment in Low-Resource English Languages -- A Singlish Case Study [3.314410266204751]
既存の安全アライメント手法は英語中心であり、有効性を制限している。
我々は,Singlishの毒性を低減するため,Slama 3-8B のSEA-Lion-v2.1-Instruct を調整するための Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), Kahneman-Tversky Optimization (KTO) を体系的に比較した。
以上の結果から, SFT+KTO は DPO よりも高い試料効率で安全性を向上し, さらに KTO-S を導入し, 改良された KL 分散正則化による安定性の向上を実現した。
論文 参考訳(メタデータ) (2025-02-18T03:11:06Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - SAFETY-J: Evaluating Safety with Critique [24.723999605458832]
SAFETY-Jは、英語と中国語のための二言語生成安全評価器であり、批判に基づく判断である。
人間の介入を最小限に抑えて批評の質を客観的に評価する自動メタ評価ベンチマークを構築した。
SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。
論文 参考訳(メタデータ) (2024-07-24T08:04:00Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。