論文の概要: SafeSeek: Universal Attribution of Safety Circuits in Language Models
- arxiv url: http://arxiv.org/abs/2603.23268v1
- Date: Tue, 24 Mar 2026 14:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.534211
- Title: SafeSeek: Universal Attribution of Safety Circuits in Language Models
- Title(参考訳): SafeSeek: 言語モデルにおける安全回路の普遍的寄与
- Authors: Miao Yu, Siyuan Fu, Moayad Aloqaily, Zhenhong Zhou, Safa Otoum, Xing fan, Kun Wang, Yufei Guo, Qingsong Wen,
- Abstract要約: 我々は,統合された安全解釈可能性フレームワークである ourmethod を提案する。
提案手法は,大規模言語モデルにおける機能的完全安全回路を同定する。
LLMの安全性には2つの重要なシナリオがある。
- 参考スコア(独自算出の注目度): 49.59795225914787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability reveals that safety-critical behaviors (e.g., alignment, jailbreak, backdoor) in Large Language Models (LLMs) are grounded in specialized functional components. However, existing safety attribution methods struggle with generalization and reliability due to their reliance on heuristic, domain-specific metrics and search algorithms. To address this, we propose \ourmethod, a unified safety interpretability framework that identifies functionally complete safety circuits in LLMs via optimization. Unlike methods focusing on isolated heads or neurons, \ourmethod introduces differentiable binary masks to extract multi-granular circuits through gradient descent on safety datasets, while integrates Safety Circuit Tuning to utilize these sparse circuits for efficient safety fine-tuning. We validate \ourmethod in two key scenarios in LLM safety: \textbf{(1) backdoor attacks}, identifying a backdoor circuit with 0.42\% sparsity, whose ablation eradicates the Attack Success Rate (ASR) from 100\% $\to$ 0.4\% while retaining over 99\% general utility; \textbf{(2) safety alignment}, localizing an alignment circuit with 3.03\% heads and 0.79\% neurons, whose removal spikes ASR from 0.8\% $\to$ 96.9\%, whereas excluding this circuit during helpfulness fine-tuning maintains 96.5\% safety retention.
- Abstract(参考訳): 機械的解釈性は、Large Language Models (LLMs)における安全クリティカルな振る舞い(アライメント、ジェイルブレイク、バックドア)が、特殊機能コンポーネントに基礎を置いていることを明らかにする。
しかし、既存の安全属性法は、ヒューリスティックでドメイン固有のメトリクスと探索アルゴリズムに依存するため、一般化と信頼性に苦慮している。
そこで本稿では,LLMにおける機能的完全安全回路を最適化により識別する,統一型安全解釈可能性フレームワークである‘ourmethod’を提案する。
孤立した頭やニューロンに焦点を当てた方法とは異なり、 \ourmethodは、安全データセットの勾配勾配から複数のグラニュラー回路を抽出するための微分可能なバイナリマスクを導入し、Safety Circuit Tuningを統合して、これらのスパース回路を効率的な安全性の微調整に利用する。
攻撃成功率(ASR)を100\% $\to$ 0.4\%から退避させ,99\%以上の汎用ユーティリティを維持した上で,攻撃成功率(ASR)を100\% $\to$ 0.4\%から除いたバックドア回路を同定する \textbf{(2) 安全性アライメント,3.03\% と 0.79\% のアライメント回路を局所化し,ASR を0.8\% から 96.9\% から除去する。
関連論文リスト
- Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment [37.06683377953812]
大規模言語モデル(LLM)は、GCGのような経験的防御を簡単に回避できる適応型ジェイルブレイクに対して脆弱なままである。
本研究では,安全保証をシングルパス推論からアンサンブルの統計的安定性にシフトさせる,証明可能なロバスト性のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T03:26:45Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training [1.5349686675266894]
LLM(Large Language Models)におけるコンテンツ安全性の現在の手法は、マルチステージトレーニングパイプラインに依存している。
複数の安全性挙動を効率的に統合する統合協調学習フレームワークを提案する。
我々は,SFT+DPOの安全アライメント品質に一致し,安全性能においてDeepSeek-R1 (671B) を上回る8Bモデルを示した。
論文 参考訳(メタデータ) (2025-08-12T02:39:33Z) - Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models [30.93821289892195]
IRR (Identify, Remove, and Recalibrate for Safety Realignment) を提案する。
IRRの中核は、保持されたパラメータを再調整しながら、微調整されたモデルから安全でないデルタパラメータを特定し、除去することである。
この結果から,IRRは有害なクエリやジェイルブレイク攻撃などの安全性ベンチマークにおいて,微調整モデルの安全性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-15T03:58:38Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。