論文の概要: Q-resafe: Assessing Safety Risks and Quantization-aware Safety Patching for Quantized Large Language Models
- arxiv url: http://arxiv.org/abs/2506.20251v1
- Date: Wed, 25 Jun 2025 08:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.665059
- Title: Q-resafe: Assessing Safety Risks and Quantization-aware Safety Patching for Quantized Large Language Models
- Title(参考訳): Q-resafe: 大規模言語モデルにおける安全性リスクと量子化対応型安全性パッチの評価
- Authors: Kejia Chen, Jiawen Zhang, Jiacong Hu, Yu Wang, Jian Lou, Zunlei Feng, Mingli Song,
- Abstract要約: LLM(Quantized Large Language Model)は、リソース制約のある環境へのデプロイを可能にする上で、注目と重要性を高めている。
本稿では,様々な主要な量子化手法と多様なキャリブレーションデータセットにまたがる包括的安全性評価について述べる。
本稿では,量子化LLMの安全性を効率的に回復する,量子化対応型安全性パッチフレームワークQ-resafeを提案する。
- 参考スコア(独自算出の注目度): 37.68831497886983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantized large language models (LLMs) have gained increasing attention and significance for enabling deployment in resource-constrained environments. However, emerging studies on a few calibration dataset-free quantization methods suggest that quantization may compromise the safety capabilities of LLMs, underscoring the urgent need for systematic safety evaluations and effective mitigation strategies. In this paper, we present comprehensive safety evaluations across various mainstream quantization techniques and diverse calibration datasets, utilizing widely accepted safety benchmarks. To address the identified safety vulnerabilities, we propose a quantization-aware safety patching framework, Q-resafe, to efficiently restore the safety capabilities of quantized LLMs while minimizing any adverse impact on utility. Extensive experimental results demonstrate that Q-resafe successfully re-aligns the safety of quantized LLMs with their pre-quantization counterparts, even under challenging evaluation scenarios. Project page is available at: https://github.com/Thecommonirin/Qresafe.
- Abstract(参考訳): LLM(Quantized Large Language Model)は、リソース制約のある環境へのデプロイを可能にする上で、注目と重要性を高めている。
しかし、いくつかの校正データセットを含まない量子化法に関する新たな研究は、量子化がLLMの安全性能力を損なう可能性を示唆し、系統的安全性評価と効果的な緩和戦略の緊急性の必要性を浮き彫りにしている。
本稿では、広く受け入れられている安全性ベンチマークを用いて、様々な主要な量子化手法と多様なキャリブレーションデータセットの包括的安全性評価について述べる。
特定された安全性の脆弱性に対処するため,実用性に対する悪影響を最小限に抑えつつ,量子化LLMの安全性能力を効率的に回復する量子化対応型安全パッチフレームワークQ-resafeを提案する。
大規模な実験結果から、Q-resafeは、挑戦的な評価シナリオの下でも、量子化LDMの安全性と事前量子化の安全性を再調整することを示した。
プロジェクトページは、https://github.com/Thecommonirin/Qresafe.comで公開されている。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Evaluation Framework for Quantum Security Risk Assessment: A Comprehensive Strategy for Quantum-Safe Transition [0.03749861135832072]
大規模量子コンピューティングの台頭は、従来の暗号セキュリティ対策に重大な脅威をもたらす。
量子攻撃は、現在の非対称暗号アルゴリズムを損なう。
本研究では、量子セーフ暗号状態への移行の課題について検討する。
論文 参考訳(メタデータ) (2024-04-12T04:18:58Z) - Efficiently Computable Safety Bounds for Gaussian Processes in Active Learning [6.217857116096573]
多くの技術応用において、設計空間は連続的な軌跡を通して探索され、その上で安全性を評価する必要がある。
これはGP法における厳格な安全性要件に対して特に困難である。
本稿では,後GPの上限値の適応的なサンプル化中央値に基づいて,証明可能な安全性境界を提供することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-28T11:47:15Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。