論文の概要: AISA: Awakening Intrinsic Safety Awareness in Large Language Models against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2602.13547v1
- Date: Sat, 14 Feb 2026 01:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.138993
- Title: AISA: Awakening Intrinsic Safety Awareness in Large Language Models against Jailbreak Attacks
- Title(参考訳): AISA:大規模言語モデルにおける本質的な安全意識の覚醒
- Authors: Weiming Song, Xuan Xie, Ruiping Yin,
- Abstract要約: AISAは,大規模言語モデル内に潜伏する安全動作を活性化する,軽量でシングルパスの防御機構である。
AISAは最小限のオーバーヘッドで解釈可能なプロンプトリスクスコアを抽出し、小さな(7B)モデルと競合する検出器レベルの性能を達成する。
- 参考スコア(独自算出の注目度): 3.2148059905373025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) remain vulnerable to jailbreak prompts that elicit harmful or policy-violating outputs, while many existing defenses rely on expensive fine-tuning, intrusive prompt rewriting, or external guardrails that add latency and can degrade helpfulness. We present AISA, a lightweight, single-pass defense that activates safety behaviors already latent inside the model rather than treating safety as an add-on. AISA first localizes intrinsic safety awareness via spatiotemporal analysis and shows that intent-discriminative signals are broadly encoded, with especially strong separability appearing in the scaled dot-product outputs of specific attention heads near the final structural tokens before generation. Using a compact set of automatically selected heads, AISA extracts an interpretable prompt-risk score with minimal overhead, achieving detector-level performance competitive with strong proprietary baselines on small (7B) models. AISA then performs logits-level steering: it modulates the decoding distribution in proportion to the inferred risk, ranging from normal generation for benign prompts to calibrated refusal for high-risk requests -- without changing model parameters, adding auxiliary modules, or requiring multi-pass inference. Extensive experiments spanning 13 datasets, 12 LLMs, and 14 baselines demonstrate that AISA improves robustness and transfer while preserving utility and reducing false refusals, enabling safer deployment even for weakly aligned or intentionally risky model variants.
- Abstract(参考訳): 大きな言語モデル(LLM)は、有害またはポリシー違反のアウトプットを誘発するjailbreakプロンプトに対して脆弱なままであり、既存の多くの防御は、高価な微調整、侵入的なプロンプトリライト、あるいはレイテンシを増し、有用な機能を低下させる外部ガードレールに依存している。
我々は,安全をアドオンとして扱うのではなく,モデル内にすでに潜んでいる安全行動を活性化する軽量シングルパスディフェンスであるAISAを提案する。
AISAは最初に時空間分析により本質的な安全意識を局在させ、特に、生成前の最終的な構造トークンの近くにある特定の注意ヘッドのスケールされたドット積出力に強い分離性を持つ意図識別シグナルが広く符号化されていることを示す。
自動選択されたヘッドのコンパクトなセットを用いて、AISAは最小限のオーバーヘッドで解釈可能なプロンプトリスクスコアを抽出し、小さな(7B)モデル上で強力なプロプライエタリなベースラインと競合する検出器レベルのパフォーマンスを達成する。
AISAはロジットレベルのステアリングを実行し、モデルパラメータを変更したり、補助モジュールを追加したり、マルチパス推論を必要とすることなく、ベニグンプロンプトの正規生成からハイリスクリクエストのキャリブレーションされたリファリングまで、推論リスクに比例してデコード分布を変調する。
13のデータセット、12のLDM、14のベースラインにまたがる大規模な実験は、AISAが実用性を維持しながら堅牢性と転送を改善し、偽の拒絶を減らし、弱い整列や意図的なリスクのあるモデル変異に対しても安全なデプロイメントを可能にすることを実証している。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility [26.564913442069866]
視覚言語モデル(VLM)は、大きな言語モデル(LLM)の推論能力を、モード間設定に拡張する。
既存の防衛は、安全性の微調整や攻撃的なトークン操作に頼っており、相当な訓練コストや性能の大幅な低下を招いている。
安全校正のための軽量かつトレーニング不要なフレームワークであるリスク意識注入(RAI)を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:26:05Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment [43.86865924673546]
軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-01-23T07:12:53Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。