論文の概要: Before the Last Token: Diagnosing Final-Token Safety Probe Failures
- arxiv url: http://arxiv.org/abs/2605.12726v1
- Date: Tue, 12 May 2026 20:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.675319
- Title: Before the Last Token: Diagnosing Final-Token Safety Probe Failures
- Title(参考訳): 最終トーケン前:最終トーケンの安全試験失敗の診断
- Authors: Shravan Doda,
- Abstract要約: 最終トーケンの安全プローブは、プロンプトプリフィルの後、単一の隠れ状態を監視する。
クリーンで有害なプロンプトと良性なプロンプトのみをトレーニングしたSafeSwitch型プローブを用いて,このプリフィル時間障害モードについて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Final-token safety probes monitor a single hidden state after prompt prefill, but jailbreak prompts can contain probe-visible unsafe evidence distributed across earlier user-token representations that is missed by this readout. We study this prefill-time failure mode using SafeSwitch-style probes trained only on clean harmful and benign prompts across three instruction-tuned LLMs. The probes achieve high recall on clean harmful prompts, but miss many jailbreaks and can produce false positives on safety-adjacent benign prompts. Subspace analyses suggest that missed jailbreaks differ from clean benign prompts along directions that are poorly captured by the probe's representational subspace, and increasing probe bottleneck width does not reliably resolve this mismatch. Token-level prefill analyses reveal that probe-visible unsafe evidence often appears earlier in the sequence but is not exposed at the final-token readout, while naive max-pooling over token positions overfires on safe prompts. A simple PCA-HMM trajectory model, trained only on the same clean split, recovers many final-token misses from user-content prefill trajectories without the catastrophic false-positive behavior of naive token pooling, motivating trajectory-aware hidden-state analyses as diagnostic complements to final-token probes
- Abstract(参考訳): しかし、Jailbreakプロンプトには、このリードアウトで見逃された以前のユーザトークン表現に分散された、プローブ可視の安全でない証拠が含まれている可能性がある。
クリーンで有害なプロンプトと良性なプロンプトのみをトレーニングしたSafeSwitch型プローブを用いて,このプリフィル時間障害モードについて検討した。
これらのプローブは、クリーンな有害なプロンプトに対する高いリコールを達成するが、多くのジェイルブレイクを見逃し、安全に配慮した良心的なプロンプトに対する偽陽性を発生させる可能性がある。
サブスペース解析により、見逃されたジェイルブレイクは、プローブの表現サブスペースによって捕捉されていない方向に沿って、クリーンな良性プロンプトとは異なることが示唆され、プローブのボトルネック幅の増大は、このミスマッチを確実に解決しない。
トークンレベルのプリフィル分析では、プローブ可視の安全でない証拠は、しばしばシーケンスの早い段階で現れるが、最終トーケン読み出しでは露出しない。
簡単なPCA-HMMトラジェクトリモデルでは、同じクリーンスプリットでのみ訓練され、ナイーブトークンプーリングの破滅的な偽陽性動作を伴わず、最終トーケンプローブの診断補完として軌道認識隠れ状態解析を動機づけることなく、ユーザ・コンテンツ・プレフィル・トラジェクトリから多くの最終トーケンミスを回復する。
関連論文リスト
- Gradient-Controlled Decoding: A Safety Guardrail for LLMs with Dual-Anchor Steering [1.9237694458888568]
大規模言語モデル(LLM)は、ジェイルブレイクや直接的インジェクション攻撃の影響を受けやすいままである。
本稿では、受け入れアンカートークン("Sure")と拒否アンカートークン("Sorry")を組み合わせたトレーニングフリーガードレールであるグラディエント制御デコーディング(GCD)を紹介する。
GCDは、同等のリコールで偽陽性を52%、GradSafeを52%削減し、攻撃成功率を10%まで下げる。
論文 参考訳(メタデータ) (2026-04-06T21:19:28Z) - Soft Instruction De-escalation Defense [36.36851291734834]
大規模言語モデル(LLM)は、ますます外部環境と相互作用するエージェントシステムにデプロイされている。
これにより、信頼できないデータを扱う際に、インジェクションをインジェクションすることが可能になる。
ツール拡張LDMエージェント用に設計された簡易かつ効果的な反復的プロンプト衛生ループSICを提案する。
論文 参考訳(メタデータ) (2025-10-24T00:04:07Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Language Models Can Predict Their Own Behavior [29.566208688211876]
言語モデル(LM)は、アライメントトレーニングに従わないなど、特定の振る舞いを示すことができます。
入力トークンの内部表現だけで訓練されたプローブは、出力シーケンス全体にわたって幅広い結果の挙動を予測することができることを示す。
プローブ上に構築された早期警報システムは、脱獄を91%削減する。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。