論文の概要: Efficient Jailbreak Mitigation Using Semantic Linear Classification in a Multi-Staged Pipeline
- arxiv url: http://arxiv.org/abs/2512.19011v1
- Date: Mon, 22 Dec 2025 04:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.610111
- Title: Efficient Jailbreak Mitigation Using Semantic Linear Classification in a Multi-Staged Pipeline
- Title(参考訳): 多段パイプラインにおける意味線形分類を用いた効率的なジェイルブレイク除去
- Authors: Akshaj Prashanth Rao, Advait Singh, Saumya Kumaar Saksena, Dhruv Kumar,
- Abstract要約: プロンプトインジェクションとジェイルブレイク攻撃は、大規模言語モデル(LLM)ベースのシステムに永続的なセキュリティ上の課題をもたらす。
我々は,これらの脅威を軽量で多段階のパイプラインを通じて軽減する,効率的かつ体系的に評価された防衛アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 1.2802720336459552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection and jailbreaking attacks pose persistent security challenges to large language model (LLM)-based systems. We present an efficient and systematically evaluated defense architecture that mitigates these threats through a lightweight, multi-stage pipeline. Its core component is a semantic filter based on text normalization, TF-IDF representations, and a Linear SVM classifier. Despite its simplicity, this module achieves 93.4% accuracy and 96.5% specificity on held-out data, substantially reducing attack throughput while incurring negligible computational overhead. Building on this efficient foundation, the full pipeline integrates complementary detection and mitigation mechanisms that operate at successive stages, providing strong robustness with minimal latency. In comparative experiments, our SVM-based configuration improves overall accuracy from 35.1% to 93.4% while reducing average time to completion from approximately 450s to 47s, yielding over 10 times lower latency than ShieldGemma. These results demonstrate that the proposed design simultaneously advances defensive precision and efficiency, addressing a core limitation of current model-based moderators. Evaluation across a curated corpus of over 30,000 labeled prompts, including benign, jailbreak, and application-layer injections, confirms that staged, resource-efficient defenses can robustly secure modern LLM-driven applications.
- Abstract(参考訳): プロンプトインジェクションとジェイルブレイク攻撃は、大規模言語モデル(LLM)ベースのシステムに永続的なセキュリティ上の課題をもたらす。
我々は,これらの脅威を軽量で多段階のパイプラインを通じて軽減する,効率的かつ体系的に評価された防衛アーキテクチャを提案する。
その中核となるコンポーネントは、テキスト正規化、TF-IDF表現、線形SVM分類器に基づくセマンティックフィルタである。
その単純さにもかかわらず、このモジュールは93.4%の精度と96.5%の特異性を保ち、無視できる計算オーバーヘッドを発生させながら攻撃のスループットを大幅に低下させる。
この効率的な基盤の上に構築された完全なパイプラインは、連続的に動作する補完的な検出と緩和メカニズムを統合し、最小のレイテンシで強力な堅牢性を提供する。
比較実験では、SVMベースの構成により、全体の精度が35.1%から93.4%に向上し、平均的な時間を約450秒から47秒に短縮し、ShieldGemmaの10倍のレイテンシを実現する。
これらの結果から,提案設計は防御精度と効率性を同時に向上させ,現在のモデルベースモデレータのコア限界に対処することを示した。
ベニグニグ、ジェイルブレイク、アプリケーション層注入を含む3万以上のラベル付きプロンプトのキュレートされたコーパスに対する評価は、ステージドされたリソース効率の良いディフェンスが、現代のLCM駆動アプリケーションに対して堅牢に保護できることを確認する。
関連論文リスト
- When retrieval outperforms generation: Dense evidence retrieval for scalable fake news detection [1.329253775274691]
DeReCは、汎用的なテキスト埋め込みが、実際に検証タスクにおいて、自動回帰LPMベースのアプローチを効果的に置き換える方法について、軽量なフレームワークである。
本システムでは,高密度検索と特殊分類を組み合わせることにより,精度が向上し,効率も向上した。
この結果から, 検索システムでは, 特定のタスクにおいて, LLMの性能に適合したり, 上回ったりできることが示された。
論文 参考訳(メタデータ) (2025-11-06T18:35:45Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Large Language Model-Based Framework for Explainable Cyberattack Detection in Automatic Generation Control Systems [5.99333254967625]
本稿では,機械学習(ML)と自然言語説明(LLM)を統合し,サイバー攻撃を検出するハイブリッドフレームワークを提案する。
提案するフレームワークは,解釈可能な高忠実な説明によるリアルタイム検出を効果的に実現し,スマートグリッドサイバーセキュリティにおける実行可能なAIの重要要件に対処する。
論文 参考訳(メタデータ) (2025-07-29T21:23:08Z) - Side-Channel Extraction of Dataflow AI Accelerator Hardware Parameters [2.5118823309854323]
本稿では,FINNフレームワークで生成されたデータフローアクセラレータのハードウェア構成を復元する手法を提案する。
ハードウェアパラメータの回復に337msしか必要とせず,95%以上,421ms以上の精度でパラメータの完全回復を行う。
提案手法は既存の手法よりも現実的な攻撃シナリオを提供し, tsfreshに基づくSoA攻撃と比較して, 940倍, 110倍の時間を要する。
論文 参考訳(メタデータ) (2025-06-18T13:06:09Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。