論文の概要: Hierarchical Safety Realignment: Lightweight Restoration of Safety in Pruned Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.16104v1
- Date: Thu, 22 May 2025 01:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.959919
- Title: Hierarchical Safety Realignment: Lightweight Restoration of Safety in Pruned Large Vision-Language Models
- Title(参考訳): 階層型安全性の確立:大規模ビジョンランゲージモデルにおける軽量な安全性回復
- Authors: Yue Li, Xin Yi, Dongsheng Shi, Gerard de Melo, Xiaoling Wang, Linlin Wang,
- Abstract要約: 階層型安全実現(HSR)という,新規で軽量なアプローチを提案する。
HSRはまず、それぞれの注意ヘッドの安全への貢献を定量化し、最も重要なものを同定し、選択的に神経細胞を復元する。
我々は,HSRを各種モデルおよびプルーニング戦略で検証し,安全性能の顕著な改善を継続的に達成した。
- 参考スコア(独自算出の注目度): 33.04480683669939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing size of Large Vision-Language Models (LVLMs), network pruning techniques aimed at compressing models for deployment in resource-constrained environments have garnered significant attention. However, we observe that pruning often leads to a degradation in safety performance. To address this issue, we present a novel and lightweight approach, termed Hierarchical Safety Realignment (HSR). HSR operates by first quantifying the contribution of each attention head to safety, identifying the most critical ones, and then selectively restoring neurons directly within these attention heads that play a pivotal role in maintaining safety. This process hierarchically realigns the safety of pruned LVLMs, progressing from the attention head level to the neuron level. We validate HSR across various models and pruning strategies, consistently achieving notable improvements in safety performance. To our knowledge, this is the first work explicitly focused on restoring safety in LVLMs post-pruning.
- Abstract(参考訳): LVLM(Large Vision-Language Models)のサイズが大きくなるにつれて、資源制約のある環境に配置するためのモデル圧縮を目的としたネットワークプルーニング技術が注目されている。
しかし, 刈り取りが安全性能の低下につながることがしばしばある。
この問題に対処するため,HSR(Hierarchical Safety Realignment)と呼ばれる,新鮮で軽量なアプローチを提案する。
HSRはまず、それぞれの注意ヘッドの安全への貢献を定量化し、最も重要なものを特定し、次に、安全を維持する上で重要な役割を担っているこれらの注意ヘッド内で神経細胞を選択的に復元する。
このプロセスは、注意頭レベルからニューロンレベルへと進む、刈り取られたLVLMの安全性を階層的に認識する。
我々は,HSRを各種モデルおよびプルーニング戦略で検証し,安全性能の顕著な改善を継続的に達成した。
我々の知る限り、これはLVLMのポストプルーニングにおける安全性の回復に焦点を当てた最初の研究である。
関連論文リスト
- SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - On the Role of Attention Heads in Large Language Model Safety [64.51534137177491]
大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避できる。
モデル安全への個人的貢献を評価するため,マルチヘッド対応のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:08:06Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。
我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。
そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。