論文の概要: Quantized Delta Weight Is Safety Keeper
- arxiv url: http://arxiv.org/abs/2411.19530v1
- Date: Fri, 29 Nov 2024 08:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:37.901820
- Title: Quantized Delta Weight Is Safety Keeper
- Title(参考訳): 量子化デルタ重量は安全維持装置
- Authors: Yule Liu, Zhen Sun, Xinlei He, Xinyi Huang,
- Abstract要約: 微調整言語モデルは、さまざまなドメインにまたがるカスタマイズされたアプリケーションを可能にする。
微調整は、アライメント問題、バックドア攻撃、幻覚などのセキュリティ脆弱性を導入することができる。
本稿では, 部分圧縮により, 実用性を損なう微調整型攻撃に対するモデルセキュリティが向上することを示す。
- 参考スコア(独自算出の注目度): 22.093981603286466
- License:
- Abstract: Recent advancements in fine-tuning proprietary language models enable customized applications across various domains but also introduce two major challenges: high resource demands and security risks. Regarding resource demands, recent work proposes novel partial compression, such as BitDelta, to quantize the delta weights between the fine-tuned model and base model. Regarding the security risks, user-defined fine-tuning can introduce security vulnerabilities, such as alignment issues, backdoor attacks, and hallucinations. However, most of the current efforts in security assessment focus on the full-precision or full-compression models, it is not well-discussed how the partial compression methods affect security concerns. To bridge this gap, we evaluate the robustness of delta-weight quantization against these security threats. In this paper, we uncover a "free lunch" phenomenon: partial compression can enhance model security against fine-tuning-based attacks with bearable utility loss. Using Llama-2-7b-chat as a case study, we show that, with under 10% utility degradation, the partial compression mitigates alignment-breaking risks by up to 66.17%, harmful backdoor vulnerabilities by 64.46%, and targeted output manipulation risks by up to 90.53%. We further apply LogitLens to visualize internal state transformations during forward passes, suggesting mechanisms for both security failure and recovery in standard versus compressed fine-tuning. This work offers new insights into selecting effective delta compression methods for secure, resource-efficient multi-tenant services.
- Abstract(参考訳): 微調整されたプロプライエタリ言語モデルの最近の進歩は、さまざまなドメインにまたがるアプリケーションをカスタマイズ可能にするだけでなく、高いリソース要求とセキュリティリスクという2つの大きな課題も導入している。
資源需要に関して、最近の研究は、微調整モデルとベースモデルの間のデルタ重みを定量化するために、BitDeltaのような新しい部分圧縮を提案する。
セキュリティリスクに関しては、アライメント問題やバックドアアタック、幻覚といった、ユーザ定義の微調整によってセキュリティ上の脆弱性が発生する可能性がある。
しかしながら、セキュリティアセスメントにおける現在の取り組みのほとんどは、完全精度または完全圧縮モデルに焦点を当てているが、部分的な圧縮手法がセキュリティの懸念にどのように影響するかは、十分に議論されていない。
このギャップを埋めるために、これらのセキュリティ脅威に対するデルタ重量子化の堅牢性を評価する。
本稿では, 部分圧縮により, 実用性を損なう微調整型攻撃に対するモデル安全性が向上する「フリーランチ」現象を明らかにする。
Llama-2-7b-chatをケーススタディとして、10%未満の実用性劣化により、部分圧縮はアライメント破壊リスクを最大66.17%軽減し、有害なバックドア脆弱性を64.46%削減し、出力調整リスクを最大90.53%削減することを示した。
さらに、LogitLensを使用して、フォワードパス中の内部状態変換を可視化し、セキュリティ障害とリカバリの両方のメカニズムを標準と圧縮微細チューニングの両方で提案する。
この研究は、安全でリソース効率のよいマルチテナントサービスのための効果的なデルタ圧縮方法の選択に関する新たな洞察を提供する。
関連論文リスト
- Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace [15.457992715866995]
本稿では,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAM手法を提案する。
既存のマージ手法と比較して、DAMはパフォーマンスとセキュリティのバランスが良く、攻撃成功率を2-10ポイント削減する。
論文 参考訳(メタデータ) (2024-10-17T00:13:31Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Backdoor Attacks Against Deep Image Compression via Adaptive Frequency
Trigger [106.10954454667757]
本稿では,学習画像圧縮モデルに対する複数のトリガーを用いたバックドアアタックを提案する。
既存の圧縮システムや標準で広く使われている離散コサイン変換(DCT)に動機付けられ,周波数ベースのトリガーインジェクションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-28T15:39:31Z) - Safety and Performance, Why not Both? Bi-Objective Optimized Model
Compression toward AI Software Deployment [12.153709321048947]
ハイパフォーマンスを維持しながらモデルサイズを圧縮することを目的として、AIソフトウェア圧縮が重要な役割を果たす。
本稿では,安全性と性能の両立の観点から,安全なモデル圧縮問題に対処する。
具体的には、ソフトウェアエンジニアリングにおけるテスト駆動開発(TDD)パラダイムにヒントを得て、SafeCompressというテスト駆動スパーストレーニングフレームワークを提案します。
論文 参考訳(メタデータ) (2022-08-11T04:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。