論文の概要: Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection
- arxiv url: http://arxiv.org/abs/2604.28129v1
- Date: Thu, 30 Apr 2026 17:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.218663
- Title: Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection
- Title(参考訳): 潜時副次的検出:多軸検出のためのLLM活性化の適応的探索
- Authors: Prashant Kulkarni,
- Abstract要約: マルチターンプロンプトインジェクションは既知の攻撃経路に従う。
この攻撃経路はモデルの残差ストリームにアクティベーションレベルシグネチャを残していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-turn prompt injection follows a known attack path -- trust-building, pivoting, escalation but text-level defenses miss covert attacks where individual turns appear benign. We show this attack path leaves an activation-level signature in the model's residual stream: each phase shift moves the activation, producing a total path length far exceeding benign conversations. We call this adversarial restlessness. Five scalar trajectory features capturing this signal lift conversation-level detection from 76.2% to 93.8% on synthetic held-out data. The signal replicates across four model families (24B-70B); probes are model-specific and do not transfer across architectures. Generalization is source-dependent: leave-one-source-out evaluation shows each of synthetic, LMSYS-Chat-1M, and SafeDialBench captures distinct attack distributions, with detection on real-world LMSYS reaching 47-71% when its distribution is represented in training. Combined three-source training achieves 89.4% detection at 2.4% false positive rate on a held-out mixed set. We further show that three-phase turn-level labels(benign/pivoting/adversarial) unique to our synthetic dataset are essential: binary conversation-level labels produce 50-59% false positives. These results establish adversarial restlessness as a reliable activation-level signal and characterize the data requirements for practical deployment.
- Abstract(参考訳): マルチターンプロンプトインジェクションは、信頼構築、ピボット、エスカレーション、テキストレベルの防御など、既知の攻撃パスに従っている。
この攻撃経路はモデルの残差ストリームに活性化レベルシグネチャを残しており、各位相シフトがアクティベーションを移動させ、良質な会話よりもはるかに長い経路長を生成する。
私たちはこれを敵の安らぎと呼ぶ。
この信号リフトの会話レベルを76.2%から93.8%に検出する5つのスカラー軌道特性
信号は4つのモデルファミリ(24B-70B)で複製される。
leave-one-source-out評価は、それぞれの合成、LMSYS-Chat-1M、SafeDialBenchが異なる攻撃分布をキャプチャし、実際のLMSYSの検出は、その分布がトレーニング中に表現されたときに47-71%に達する。
組み合わせ3ソーストレーニングは89.4%の検知を2.4%の偽陽性率で達成している。
さらに、我々の合成データセットに特有の3相のターンレベルラベル(ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグナグニグニグニグナグニグニグニグナグニグニグニグナグニグニグニグニグニグナグニグナグナグニグナグニグナグニグナグナグニグナグニグニグニグナグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニ
これらの結果は、信頼性の高いアクティベーションレベル信号として敵のレスレス性を確立し、実践的な展開に必要なデータ要求を特徴付ける。
関連論文リスト
- Poisoned Acoustics [0.0]
トレーニングデータ中毒攻撃は、非常に少数のトレーニングラベルを破損させることで、ディープニューラルネットワークの標的となる、検出不能な障害を引き起こす可能性がある。
本稿では,MELAUDIS都市交差点データセットを用いた音響車両の分類について述べる。
論文 参考訳(メタデータ) (2026-02-25T01:09:43Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection [0.0]
マルチターンプロンプトインジェクション攻撃は、複数の会話ターンに悪意のある意図を分散させる。
プロキシ層での会話レベルのリスクスコアにターン毎のパターンスコアを集約する公式は存在しない。
本稿では,ピークの単一ターンリスク,持続率,カテゴリの多様性を組み合わせ,ピーク+累積スコアリング法を提案する。
論文 参考訳(メタデータ) (2026-02-11T17:53:41Z) - Mitigating Spurious Correlations in NLI via LLM-Synthesized Counterfactuals and Dynamic Balanced Sampling [0.0]
自然言語推論(NLI)モデルは、意味論的推論よりも、素早い相関にしばしば依存する。
既存の緩和戦略は、しばしば高いアノテーションコストを発生させるか、微調整中に破滅的な忘れを引き起こす。
これらの制限に対処する自動化されたスケーラブルなパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-20T18:30:54Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models [57.474294329887236]
拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
論文 参考訳(メタデータ) (2025-08-12T17:59:57Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Weakly Supervised Veracity Classification with LLM-Predicted Credibility Signals [4.895830603263421]
Pastelは、Webコンテンツから信頼性信号を取り出すために、大きな言語モデルを活用する弱い教師付きアプローチである。
信頼性信号と信頼性の関係について検討し,各信号がモデル性能に与える影響について検討した。
論文 参考訳(メタデータ) (2023-09-14T11:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。