論文の概要: Detecting Fluent Optimization-Based Adversarial Prompts via Sequential Entropy Changes
- arxiv url: http://arxiv.org/abs/2605.19966v1
- Date: Tue, 19 May 2026 15:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.472267
- Title: Detecting Fluent Optimization-Based Adversarial Prompts via Sequential Entropy Changes
- Title(参考訳): 逐次エントロピー変化によるフルエント最適化に基づく逆数プロンプトの検出
- Authors: Mohammed Alshaalan, Miguel R. D. Rodrigues,
- Abstract要約: 最適化に基づく逆接接尾辞は、大きな言語モデル(LLM)をジェイルブレイクできる
トークンレベルの次トーケンエントロピーストリーム上でのオンライン変更点検出問題として,逆接接尾辞検出を行った。
結果として生成されたCPD Onlineは、モデルに依存しない、トレーニング不要で、オンラインで動作し、敵の接尾辞のオンセットをローカライズする。
- 参考スコア(独自算出の注目度): 11.202461708062643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization-based adversarial suffixes can jailbreak aligned large language models (LLMs) while remaining fluent, weakening static and windowed perplexity-based detectors. We cast adversarial suffix detection as an online change-point detection problem over the token-level next-token entropy stream. Using the LLM system prompt to estimate a robust baseline, we standardize user-token entropies and apply a one-sided CUSUM statistic. The resulting detector, CPD Online (CPD), is model-agnostic, training-free, runs online, and localizes the adversarial suffix onset. On a benchmark of 1,012 optimization-based suffix attacks (GCG, AutoDAN, AdvPrompter, BEAST, AutoDAN-HGA) and 1,012 perplexity-controlled benign prompts, CPD improves F1 over the strongest windowed-perplexity baseline on all six open-weight chat models (LLaMA-2-7B/13B, Vicuna-7B/13B, Qwen2.5-7B/14B). On LLaMA-2-7B at the canonical CUSUM setting ($k=0$), CPD reaches AUROC $0.88$ and F1 $0.82$. Beyond prompt-level detection, CPD concentrates 79.6% of its triggers inside the adversarial suffix, versus 17-46% for windowed perplexity. Finally, when used as a lightweight gate for LLaMA Guard, CPD reduces guard calls by 17-22% on a high-volume, benign-dominated deployment while preserving guard-level detection quality
- Abstract(参考訳): 最適化ベースの逆接接尾辞は大きな言語モデル(LLM)をジェイルブレイクし、流動的で、静的でウィンドウ化されたパープレキシティベースの検出器を弱める。
トークンレベルの次トーケンエントロピーストリーム上でのオンライン変更点検出問題として,逆接接尾辞検出を行った。
LLMシステムを用いて、ロバストなベースラインを推定し、ユーザツーケンエントロピーを標準化し、一方的なCUSUM統計を適用した。
結果として生成されたCPD Online(CPD)は、モデルに依存しない、トレーニング不要で、オンラインで動作し、逆接接尾辞のオンセットをローカライズする。
1,012の最適化ベースの接尾辞攻撃(GCG、AutoDAN、AdvPrompter、BEAST、AutoDAN-HGA)と1,012の難易度制御された良性プロンプトのベンチマークでは、PDは6つのオープンウェイトチャットモデル(LLaMA-2-7B/13B、Vicuna-7B/13B、Qwen2.5-7B/14B)で最強のウィンドウ付き複雑度ベースラインよりもF1を改善している。
LLaMA-2-7B の標準 CUSUM 設定 (k=0$) では、CPD は AUROC $0.88$ と F1 $0.82$ に達する。
プロンプトレベルの検出以外にも、CPDは79.6%のトリガーを敵の接尾辞内に集中させるが、窓のパープレキシティは17-46%である。
最後に、LLaMA Guardの軽量ゲートとして使用する場合、CPDはガードレベルの検出品質を維持しながら、高ボリュームで良性に支配されたデプロイメントにおいてガードコールを17~22%削減する。
関連論文リスト
- Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers [14.98763942493771]
本稿では,モデルの現在の空間とターゲット空間との差に基づいて$$を更新する適応正規化手法を提案する。
提案手法は,75%から99%の範囲の空間的目標を確実に達成する。
初期のトレーニングでは、オラクルで調整された非適応ベースラインよりも早く収束し、同じエラー率で最終的なパフォーマンスを達成または上回っている。
論文 参考訳(メタデータ) (2026-05-08T15:37:24Z) - PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors [14.336100401626062]
大規模言語モデル(LLM)エージェントは、最終結果チェックが介入するには遅すぎるような、長時間のツール使用タスクを実行する。
PrefixGuardは、オフラインのStepView誘導ステップと監視監視トレーニングを備えたトレース・ツー・モニタフレームワークである。
WebArena, $2$-Bench, SkillsBench, TerminalBench, 最も強力なPrefixGuardモニタは0.900/0.70.533/0.557 AUPRCである。
論文 参考訳(メタデータ) (2026-05-07T15:49:48Z) - Beyond Pattern Matching: Seven Cross-Domain Techniques for Prompt Injection Detection [0.0]
本研究は,大言語以外の分野から特定のメカニズムを移植する7つの検出手法を提案する。
7つのテクニックのうち3つは、プロンプトシールドv0.4.1リリース(Apache 2.0)で実装され、6つのデータセットにわたる4つの設定アブレーションで評価されている。
論文 参考訳(メタデータ) (2026-04-20T13:27:05Z) - DMax: Aggressive Parallel Decoding for dLLMs [77.24184219948337]
効率的な拡散言語モデル(dLLM)のための新しいパラダイムであるDMaxを提案する。
並列デコードにおけるエラーの蓄積を軽減し、生成品質を維持しながらアグレッシブデコードを可能にする。
当社のアプローチの核心は、マスクと均一なdLLMを効率的に統合する新しいトレーニング戦略であるOn-Policy Uniform Trainingである。
論文 参考訳(メタデータ) (2026-04-09T14:35:42Z) - CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z) - No Validation, No Problem: Predicting Model Performance from a Single Gradient [1.9336815376402718]
本稿では,1つの前方パスからの検証不要なチェックポインティング信号を提案する。
ImageNet-1k CNNとTransformers全体で、このプロキシはTop-1に強く否定的で、損失に肯定的です。
論文 参考訳(メタデータ) (2026-01-23T16:30:11Z) - Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - Stealthy Patch-Wise Backdoor Attack in 3D Point Cloud via Curvature Awareness [52.780853311462636]
バックドア攻撃はディープニューラルネットワーク(DNN)に深刻な脅威をもたらす
既存の3Dポイントのクラウドバックドア攻撃は、サンプルワイドなグローバルな修正に依存している。
我々は,3Dポイントクラウド用のパッチワイドバックドアアタックフレームワークであるStealthy Patch-Wise Backdoor Attack (SPBA)を提案する。
論文 参考訳(メタデータ) (2025-03-12T12:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。