論文の概要: Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15801v1
- Date: Thu, 22 Jan 2026 09:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.560405
- Title: Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるグローバル最適化による安全ベクトルの帰属と爆発
- Authors: Fengheng Chu, Jiahao Chen, Yuhong Wang, Jun Wang, Zhihui Fu, Shouling Ji, Songze Li,
- Abstract要約: 本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
- 参考スコア(独自算出の注目度): 50.91504059485288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) are aligned to mitigate risks, their safety guardrails remain fragile against jailbreak attacks. This reveals limited understanding of components governing safety. Existing methods rely on local, greedy attribution that assumes independent component contributions. However, they overlook the cooperative interactions between different components in LLMs, such as attention heads, which jointly contribute to safety mechanisms. We propose \textbf{G}lobal \textbf{O}ptimization for \textbf{S}afety \textbf{V}ector Extraction (GOSV), a framework that identifies safety-critical attention heads through global optimization over all heads simultaneously. We employ two complementary activation repatching strategies: Harmful Patching and Zero Ablation. These strategies identify two spatially distinct sets of safety vectors with consistently low overlap, termed Malicious Injection Vectors and Safety Suppression Vectors, demonstrating that aligned LLMs maintain separate functional pathways for safety purposes. Through systematic analyses, we find that complete safety breakdown occurs when approximately 30\% of total heads are repatched across all models. Building on these insights, we develop a novel inference-time white-box jailbreak method that exploits the identified safety vectors through activation repatching. Our attack substantially outperforms existing white-box attacks across all test models, providing strong evidence for the effectiveness of the proposed GOSV framework on LLM safety interpretability.
- Abstract(参考訳): 大きな言語モデル(LLM)はリスクを軽減するために調整されているが、彼らの安全ガードレールは脱獄攻撃に対して脆弱である。
これは、安全を管理するコンポーネントの限定的な理解を明らかにします。
既存のメソッドは、独立したコンポーネントのコントリビューションを前提とする、局所的で欲求的な属性に依存している。
しかし、彼らはLLMの異なるコンポーネント間の協調的相互作用、例えば注意頭(英語版)は共同で安全機構に寄与する。
本稿では,全頭部を同時にグローバルに最適化することで,安全上重要な注意点を識別するフレームワークである \textbf{G}lobal \textbf{O}ptimization for \textbf{S}afety \textbf{V}ector extract (GOSV)を提案する。
我々は、ハームフル・パッチングとゼロ・アブレーションの2つの相補的なアクティベーション・リマッチ戦略を採用している。
これらの戦略は、連続的に重なり合いの低い空間的に異なる2つの安全ベクトルを識別し、Malicious Injection Vectors とSafety Suppression Vectors と呼ばれ、LLM が安全のために別々の機能経路を維持していることを示す。
系統的な分析により,全頭部の約30%が全モデルで再現されている場合に,完全安全破壊が発生することがわかった。
これらの知見に基づいて,アクティベーション・リマッチにより同定された安全ベクトルを利用する新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
我々の攻撃は、全てのテストモデルにおいて既存のホワイトボックス攻撃よりも大幅に優れており、提案したGOSVフレームワークがLLM安全性の解釈可能性に有効であることを示す強力な証拠となる。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models [9.318094073527563]
大規模視覚言語モデル(LVLM)の内部アクティベーションは、異なる攻撃に対して悪意のあるプロンプトを識別することができる。
この固有の安全性の認識は、私たちが安全の頭と呼ぶ、まばらな注意の頭によって支配されている」。
これらの安全ヘッドを配置し、それらのアクティベーションを連結することにより、単純だが強力な悪意のあるプロンプト検出器を構築する。
論文 参考訳(メタデータ) (2025-01-03T07:01:15Z) - Superficial Safety Alignment Hypothesis [15.215130286922564]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択することを示唆する,表層安全アライメント仮説(SSAH)を提案する。
属性クリティカルなコンポーネントは,安全性クリティカルユニット(SCU),ユーティリティクリティカルユニット(UCU),コンプレックスユニット(CU),冗長ユニット(RU)の4種類に分類する。
実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。