論文の概要: SelfGrader: Stable Jailbreak Detection for Large Language Models using Token-Level Logits
- arxiv url: http://arxiv.org/abs/2604.01473v1
- Date: Wed, 01 Apr 2026 23:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.105929
- Title: SelfGrader: Stable Jailbreak Detection for Large Language Models using Token-Level Logits
- Title(参考訳): SelfGrader:Token-Level Logitsを用いた大規模言語モデルの安定したジェイルブレイク検出
- Authors: Zikai Zhang, Rui Hu, Olivera Kotevska, Jiahao Xu,
- Abstract要約: 大きな言語モデル(LLM)は、ユーザクエリに応答する強力なツールだが、Jailbreak攻撃に対して非常に脆弱である。
トークンレベルのロジットを用いた数値グレーディング問題としてジェイルブレイク検出を定式化する軽量ガードレールであるSelfGraderを提案する。
SelfGraderは、LLaMA-3-8B上で最大22.66%のASR削減を実現し、メモリオーバーヘッド(最大173倍)とレイテンシ(最大26倍)を大幅に低減した。
- 参考スコア(独自算出の注目度): 11.826762642822219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are powerful tools for answering user queries, yet they remain highly vulnerable to jailbreak attacks. Existing guardrail methods typically rely on internal features or textual responses to detect malicious queries, which either introduce substantial latency or suffer from the randomness in text generation. To overcome these limitations, we propose SelfGrader, a lightweight guardrail method that formulates jailbreak detection as a numerical grading problem using token-level logits. Specifically, SelfGrader evaluates the safety of a user query within a compact set of numerical tokens (NTs) (e.g., 0-9) and interprets their logit distribution as an internal safety signal. To align these signals with human intuition of maliciousness, SelfGrader introduces a dual-perspective scoring rule that considers both the maliciousness and benignness of the query, yielding a stable and interpretable score that reflects harmfulness and reduces the false positive rate simultaneously. Extensive experiments across diverse jailbreak benchmarks, multiple LLMs, and state-of-the-art guardrail baselines demonstrate that SelfGrader achieves up to a 22.66% reduction in ASR on LLaMA-3-8B, while maintaining significantly lower memory overhead (up to 173x) and latency (up to 26x).
- Abstract(参考訳): 大きな言語モデル(LLM)は、ユーザクエリに応答する強力なツールだが、Jailbreak攻撃に対して非常に脆弱である。
既存のガードレールメソッドは通常、悪意のあるクエリを検出するために、内部機能やテキスト応答に依存している。
このような制限を克服するために,トークンレベルのロジットを用いた数値グレーディング問題としてジェイルブレイク検出を定式化する軽量ガードレールであるSelfGraderを提案する。
具体的には、数値トークン(NT)のコンパクトなセット内のユーザクエリの安全性を評価し(例えば、0-9)、ロジット分布を内部安全信号として解釈する。
これらの信号を悪意のある人間の直感に合わせるために、SelfGraderは、クエリの悪意と良性の両方を考慮し、有害性を反映し、偽陽性率を同時に減少させる安定かつ解釈可能なスコアを与える、二重のパースペクティブスコアルールを導入した。
様々なジェイルブレイクベンチマーク、複数のLDM、最先端ガードレールベースラインの広範な実験により、SelfGraderはLLaMA-3-8B上で最大22.66%のASR削減を実現し、メモリオーバーヘッド(最大173倍)とレイテンシ(最大26倍)を著しく低減した。
関連論文リスト
- Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents [0.0]
Recursive Language Models (RLM) に基づくエンドツーエンドのジェイルブレイク検出フレームワーク RLM-JB を提案する。
RLM-JBは、検出をワンショット分類ではなく手順として扱う。
AutoDANスタイルの逆入力では、RLM-JBは3つのLLMバックエンド間で高い検出効率を実現する。
論文 参考訳(メタデータ) (2026-02-18T15:07:09Z) - A Causal Perspective for Enhancing Jailbreak Attack and Defense [29.669194815878768]
大規模言語モデルとデータ駆動因果探索を融合したフレームワークを提案する。
7つの言語モデルにまたがる35kのジェイルブレイク試行からなる包括的データセットを導入する。
分析の結果、"Positive Character"や"Number of Task Steps"といった特定の特徴が、jailbreakの直接的な因果的ドライバとして機能していることが判明した。
論文 参考訳(メタデータ) (2026-01-31T15:20:13Z) - ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification [47.135407245022115]
既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
本稿では,階層的に,モジュール単位で,トークン単位での増幅フレームワークを提案する。
これらの知見に基づいて、効率的なゼロショットジェイルブレイク検出器であるALERTを導入する。
論文 参考訳(メタデータ) (2026-01-07T05:30:53Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。