論文の概要: GUARD-SLM: Token Activation-Based Defense Against Jailbreak Attacks for Small Language Models
- arxiv url: http://arxiv.org/abs/2603.28817v1
- Date: Sat, 28 Mar 2026 19:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.552781
- Title: GUARD-SLM: Token Activation-Based Defense Against Jailbreak Attacks for Small Language Models
- Title(参考訳): GUARD-SLM:小型言語モデルに対するToken Activation-based Defense
- Authors: Md Jueal Mia, Joaquin Molto, Yanzhao Wu, M. Hadi Amini,
- Abstract要約: 小型言語モデルは、計算コストとレイテンシを大幅に低減した競争性能を提供する。
既存のジェイルブレイク防御は、異種攻撃に対するロバスト性に制限がある。
本稿では,悪質なプロンプトをフィルタリングする軽量なトークンアクティベーションベースのGUARD-SLMを提案する。
- 参考スコア(独自算出の注目度): 1.4419081419844124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small Language Models (SLMs) are emerging as efficient and economically viable alternatives to Large Language Models (LLMs), offering competitive performance with significantly lower computational costs and latency. These advantages make SLMs suitable for resource-constrained and efficient deployment on edge devices. However, existing jailbreak defenses show limited robustness against heterogeneous attacks, largely due to an incomplete understanding of the internal representations across different layers of language models that facilitate jailbreak behaviors. In this paper, we conduct a comprehensive empirical study on 9 jailbreak attacks across 7 SLMs and 3 LLMs. Our analysis shows that SLMs remain highly vulnerable to malicious prompts that bypass safety alignment. We analyze hidden-layer activations across different layers and model architectures, revealing that different input types form distinguishable patterns in the internal representation space. Based on this observation, we propose GUARD-SLM, a lightweight token activation-based method that operates in the representation space to filter malicious prompts during inference while preserving benign ones. Our findings highlight robustness limitations across layers of language models and provide a practical direction for secure small language model deployment.
- Abstract(参考訳): 小型言語モデル (SLM) は大規模言語モデル (LLM) に匹敵する効率的かつ経済的に実現可能な代替品として登場し、計算コストとレイテンシを大幅に低減した競争性能を提供する。
これらの利点により、SLMはリソースを制限し、エッジデバイスへの効率的なデプロイに適している。
しかし、既存のジェイルブレイク防御は、ジェイルブレイクの振る舞いを促進する様々な言語モデルにおいて、内部表現が不完全なため、異種攻撃に対して限られた堅牢性を示す。
本稿では,7個のSLMと3個のLLMにまたがる9個のジェイルブレイク攻撃について,総合的研究を行った。
分析の結果,SLMは安全アライメントを回避できる悪意のあるプロンプトに対して極めて脆弱であることがわかった。
我々は、異なる層とモデルアーキテクチャにわたる隠蔽層活性化を分析し、異なる入力型が内部表現空間において識別可能なパターンを形成することを明らかにした。
そこで本研究では,表現空間内で動作する軽量トークンアクティベーション方式であるGUARD-SLMを提案し,良性なトークンを保存しながら,推論中に悪意あるプロンプトをフィルタリングする。
本研究は,言語モデルの層間におけるロバスト性制限を強調し,小規模言語モデルのデプロイをセキュアにするための実践的な方向性を提供する。
関連論文リスト
- Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文 参考訳(メタデータ) (2026-02-12T02:43:17Z) - Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks [33.836587055255954]
MLLM(Multimodal large language model)は、様々な現実世界のアプリケーションにまたがって大きな有用性を示している。
しかしMLLMは、敵の入力が安全上の制約を崩壊させ、非倫理的な反応を引き起こす可能性があるジェイルブレイクに弱いままです。
強化学習に基づくブラックボックスジェイルブレイク手法であるPolyJailbreakを開発した。
論文 参考訳(メタデータ) (2025-10-20T08:03:39Z) - FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction [82.6826848085638]
視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T11:36:56Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.887770576598646]
大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。
本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。
TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文 参考訳(メタデータ) (2024-12-11T08:44:15Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。