論文の概要: DeepContext: Stateful Real-Time Detection of Multi-Turn Adversarial Intent Drift in LLMs
- arxiv url: http://arxiv.org/abs/2602.16935v1
- Date: Wed, 18 Feb 2026 22:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.504566
- Title: DeepContext: Stateful Real-Time Detection of Multi-Turn Adversarial Intent Drift in LLMs
- Title(参考訳): 深部環境:LLMにおける多軸反転入射ドリフトのステートフルリアルタイム検出
- Authors: Justin Albrethsen, Yash Datta, Kunal Kumar, Sharath Rajasekar,
- Abstract要約: ユーザ意図の時間的軌跡をマッピングするために設計されたステートフルな監視フレームワーク。
DeepContextは、マルチターンジェイルブレイク検出において、既存のベースラインを大幅に上回る。
- 参考スコア(独自算出の注目度): 0.09799637101641147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Model (LLM) capabilities have scaled, safety guardrails remain largely stateless, treating multi-turn dialogues as a series of disconnected events. This lack of temporal awareness facilitates a "Safety Gap" where adversarial tactics, like Crescendo and ActorAttack, slowly bleed malicious intent across turn boundaries to bypass stateless filters. We introduce DeepContext, a stateful monitoring framework designed to map the temporal trajectory of user intent. DeepContext discards the isolated evaluation model in favor of a Recurrent Neural Network (RNN) architecture that ingests a sequence of fine-tuned turn-level embeddings. By propagating a hidden state across the conversation, DeepContext captures the incremental accumulation of risk that stateless models overlook. Our evaluation demonstrates that DeepContext significantly outperforms existing baselines in multi-turn jailbreak detection, achieving a state-of-the-art F1 score of 0.84, which represents a substantial improvement over both hyperscaler cloud-provider guardrails and leading open-weight models such as Llama-Prompt-Guard-2 (0.67) and Granite-Guardian (0.67). Furthermore, DeepContext maintains a sub-20ms inference overhead on a T4 GPU, ensuring viability for real-time applications. These results suggest that modeling the sequential evolution of intent is a more effective and computationally efficient alternative to deploying massive, stateless models.
- Abstract(参考訳): LLM(Large Language Model)は拡張されているが、安全ガードレールは大部分がステートレスであり、マルチターン対話を一連の非接続イベントとして扱う。
この時間的意識の欠如は、CrescendoやActorAttackのような敵の戦術が、ターン境界を越えて悪質な意図を徐々に出血させ、ステートレスフィルタをバイパスする"セーフティギャップ"を促進する。
ユーザ意図の時間的軌跡をマッピングするために設計された、ステートフルなモニタリングフレームワークであるDeepContextを紹介します。
DeepContextは、細調整されたターンレベルの埋め込みのシーケンスを取り込み、リカレントニューラルネットワーク(RNN)アーキテクチャを採用するために、独立した評価モデルを捨てる。
会話中に隠れた状態を伝搬することにより、DeepContextはステートレスモデルが見落としているリスクの漸進的な蓄積をキャプチャする。
評価の結果、DeepContextはマルチターンジェイルブレイク検出において既存のベースラインを大幅に上回り、最先端のF1スコア0.84を達成し、ハイパースケーラのクラウドプロペラガードレールとLlama-Prompt-Guard-2 (0.67)やGranite-Guardian (0.67)といったオープンウェイトモデルの両方を大幅に改善した。
さらに、DeepContextはT4 GPU上の20ms以下の推論オーバーヘッドを維持し、リアルタイムアプリケーションの生存性を保証する。
これらの結果は、インテントの逐次進化をモデル化することは、大規模でステートレスなモデルをデプロイするより効率的で効率的な方法であることを示している。
関連論文リスト
- Deep Learning for Contextualized NetFlow-Based Network Intrusion Detection: Methods, Data, Evaluation and Deployment [5.402853794565817]
本稿では,フローベース侵入検知のための文脈認識深層学習に関する最近の研究を合成する。
既存の手法を時間的文脈,グラフあるいは関係文脈,マルチモーダルコンテキスト,マルチコンセンサスコンテキストを含む4次元分類に分類する。
我々は、時間的リーク、データ分割、データセット設計上の欠陥、限られたデータセットの多様性、弱いデータセットの一般化など、報告された結果に影響を及ぼす一般的な障害モードをレビューする。
論文 参考訳(メタデータ) (2026-02-05T12:25:18Z) - Multi-modal Deepfake Detection and Localization with FPN-Transformer [21.022230340898556]
FPN変換器(Feature Pyramid-Transformer)に基づくマルチモーダルディープフェイク検出およびローカライゼーションフレームワークを提案する。
マルチスケールな特徴ピラミッドは、R-TLMブロックと局所的な注意機構によって構築され、コンテキスト間の時間的依存関係の結合解析を可能にする。
我々は,IJCAI'25 DDL-AVベンチマークの試験セットに対するアプローチを評価し,最終スコア0.7535で良好な性能を示した。
論文 参考訳(メタデータ) (2025-11-11T09:33:39Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - UnLoc: Leveraging Depth Uncertainties for Floorplan Localization [80.55849461031879]
UnLocはフロアプラン内のシーケンシャルカメラローカライゼーションのための効率的なデータ駆動ソリューションである。
本研究では,不確実性推定を組み込んだ新しい確率モデルを導入し,深度予測を明示的な確率分布としてモデル化する。
我々はUnLocを大規模合成および実世界のデータセット上で評価し、精度とロバスト性の観点から大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-14T14:45:43Z) - TD3Net: A temporal densely connected multi-dilated convolutional network for lipreading [5.768165707140847]
バックエンドアーキテクチャとして高密度スキップ接続と時間的畳み込みを組み合わせた時間密結合型多次元畳み込みネットワークTD3Netを提案する。
2つの大きな公開データセットであるLRW(Lip Reading in the Wild)とLRW-1000(Lip Reading in the Wild)を用いた単語レベルの読解処理の実験結果から,提案手法が最先端の手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-19T06:55:03Z) - DeepConvContext: A Multi-Scale Approach to Timeseries Classification in Human Activity Recognition [9.948823510429902]
HAR(Human Activity Recognition)のためのマルチスケール時系列分類フレームワークDeepConvContextを提案する。
DeepConvContextは、時間順のウィンドウのシーケンスを処理することによって、ウィンドウ内およびウィンドウ間時間パターンの両方をモデル化する。
6つの広く使用されているHARベンチマークで、DeepConvContextは古典的なDeepConvLSTMよりもF1スコアが平均10%改善され、最大21%向上した。
論文 参考訳(メタデータ) (2025-05-27T08:37:56Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Non-local Recurrent Regularization Networks for Multi-view Stereo [108.17325696835542]
深層多視点ステレオネットワークでは、正確な深さ推定を実現するためにコスト正規化が不可欠である。
NR2-Netと呼ばれるマルチビューステレオのための新しい非局所リカレント正規化ネットワークを提案する。
提案手法は,DTU,タンク,テンプルの双方のデータセットに対して,最先端の再構築結果を実現する。
論文 参考訳(メタデータ) (2021-10-13T01:43:54Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。