論文の概要: SAID: Empowering Large Language Models with Self-Activating Internal Defense
- arxiv url: http://arxiv.org/abs/2510.20129v1
- Date: Thu, 23 Oct 2025 02:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.132732
- Title: SAID: Empowering Large Language Models with Self-Activating Internal Defense
- Title(参考訳): SAID: 自己活動型内部防御による大規模言語モデルの実現
- Authors: Yulong Chen, Yadong Liu, Jiawen Zhang, Mu Li, Chao Huang, Jie Wen,
- Abstract要約: 我々は,新たな非訓練型防衛パラダイム,自走型内国防衛(SAID)を導入する。
SAIDは、防衛タスクを外部修正から内部機能アクティベーションにリフレームする。
それは、有害な出力を減らすために最先端の防御を著しく上回っている。
- 参考スコア(独自算出の注目度): 23.654016424365906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), despite advances in safety alignment, remain vulnerable to jailbreak attacks designed to circumvent protective mechanisms. Prevailing defense strategies rely on external interventions, such as input filtering or output modification, which often lack generalizability and compromise model utility while incurring significant computational overhead. In this work, we introduce a new, training-free defense paradigm, Self-Activating Internal Defense (SAID), which reframes the defense task from external correction to internal capability activation. SAID uniquely leverages the LLM's own reasoning abilities to proactively identify and neutralize malicious intent through a three-stage pipeline: model-native intent distillation to extract core semantics, optimal safety prefix probing to activate latent safety awareness, and a conservative aggregation strategy to ensure robust decision-making. Extensive experiments on five open-source LLMs against six advanced jailbreak attacks demonstrate that SAID substantially outperforms state-of-the-art defenses in reducing harmful outputs. Crucially, it achieves this while preserving model performance on benign tasks and incurring minimal computational overhead. Our work establishes that activating the intrinsic safety mechanisms of LLMs is a more robust and scalable path toward building safer and more reliable aligned AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全確保の進歩にもかかわらず、保護機構を回避するために設計されたジェイルブレイク攻撃に弱いままである。
一般的な防衛戦略は、入力フィルタリングや出力修正のような外部の介入に依存しており、計算上のオーバーヘッドを生じさせる一方で、一般化可能性や妥協モデルの有用性を欠いていることが多い。
本研究は, 外部修正から内部能力活性化へ向けて, 防衛タスクを再構築する, 新たな非訓練型防衛パラダイムである自己活性化内国防衛(SAID)を導入する。
SAIDは、中核的な意味論を抽出するためのモデルネイティブインテント蒸留、潜伏した安全意識を活性化するための最適な安全プレフィックス、堅牢な意思決定を保証するための保守的な集約戦略である。
6つの先進的ジェイルブレイク攻撃に対する5つのオープンソースLDMの大規模な実験は、SAIDが有害な出力を減らすために最先端の防御を著しく上回っていることを示している。
重要なことは、良質なタスクのモデル性能を保ち、最小の計算オーバーヘッドを発生させながらこれを達成している。
私たちの研究は、LLMの本質的な安全性メカニズムを活性化することは、より安全で信頼性の高いAIシステムを構築するための、より堅牢でスケーラブルな道である、ということを確立しています。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - CEE: An Inference-Time Jailbreak Defense for Embodied Intelligence via Subspace Concept Rotation [23.07221882519171]
大規模言語モデル(LLM)は、エンボディード・インテリジェンス(Embodied Intelligence, EI)システムの認知的コアになりつつある。
我々は,概念強化工学(CEE)という,新規で効率的な推論時防衛フレームワークを提案する。
CEEはモデルの内部表現を直接操作することで、モデル固有の安全性メカニズムを強化する。
論文 参考訳(メタデータ) (2025-04-15T03:50:04Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [23.793583584784685]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [66.72332011814183]
CoreGuardは、エッジデバイスにデプロイされるプロプライエタリな大規模言語モデル(LLM)の計算と通信効率の保護方法である。
CoreGuardは効率的な保護プロトコルを使用して、計算オーバーヘッドを削減し、伝搬プロトコルによる通信オーバーヘッドを最小限にする。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。