論文の概要: GuardNet: Ensemble Strategies of Shallow Neural Networks for Robust Prompt Injection and Jailbreak Detection
- arxiv url: http://arxiv.org/abs/2606.05566v1
- Date: Thu, 04 Jun 2026 01:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.471979
- Title: GuardNet: Ensemble Strategies of Shallow Neural Networks for Robust Prompt Injection and Jailbreak Detection
- Title(参考訳): GuardNet:ロバストプロンプトインジェクションとジェイルブレイク検出のための浅層ニューラルネットワークのアンサンブル戦略
- Authors: Paulo Ricardo Ferreira Neves, Edson Rodrigues da Cruz Filho, Paulo Henrique Eleuterio Falsetti, João Vitor Pavan, Ian Degaspari, Henrique Vieira Laturrague, Patrick Vieira Laturrague, Guilherme Nielsen Dias, Marccello Wilson Perez Berto, Gustavo Voltani Von Atzingen,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理を変換しているが、攻撃に弱いままである。
この研究は、浅いニューラルネットワーク(BiLSTM)のアンサンブルに基づくガードレールシステムであるガードネットを提示する。
システムはCPU上で平均50ミリ秒のレイテンシで動作し、本番環境へのデプロイに適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have transformed natural language processing, but they remain vulnerable to Prompt Injection (PI) and Jailbreak (JB) attacks. In addition, benchmark evaluations may be affected by contamination and partial information leakage, compromising performance estimates. This work presents GuardNet, a guardrail system based on an ensemble of shallow neural networks (BiLSTMs) with approximately 47 million parameters. We investigate the hypothesis that robustness in adversarial scenarios depends more on the diversity of example coverage and threshold calibration than on model scale. The results indicate that GuardNet achieves competitive performance compared with lightweight detectors and high efficiency at low latency, although larger LLMs such as Mistral-7B and Llama-3.1-8B still achieve superior performance in terms of F1 score and AUROC on the blind JBB-Behaviors benchmark. Nevertheless, GuardNet achieves an AUROC of 0.747 on the blind dataset (n = 200) and an F1 score of 0.92 on a proprietary benchmark (n = 50), under threshold calibration and evaluation with declared partial information leakage. The system operates with an average latency of approximately 50 ms on CPU, making it suitable for deployment in production environments with cost and infrastructure constraints.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理を変革しているが、Prompt Injection (PI) や Jailbreak (JB) 攻撃に弱いままである。
さらに、ベンチマーク評価は汚染や部分的な情報漏洩の影響を受け、性能評価を損なう可能性がある。
この研究は、約4700万のパラメータを持つ浅いニューラルネットワーク(BiLSTM)のアンサンブルに基づくガードレールシステムであるGuardNetを提示する。
本稿では, モデルスケールよりも, サンプルカバレッジとしきい値のキャリブレーションの多様性に依存しているという仮説を考察する。
その結果、ガードネットは軽量検出器と比較して競争性能と低レイテンシでの高効率を実現しているが、Mistral-7BやLlama-3.1-8Bのようなより大きなLCMは、ブラインドJBB-BehaviorsベンチマークではF1スコアとAUROCの点で優れた性能を保っていることが示唆された。
それでもガードネットは、ブラインドデータセット(n = 200)で0.747のAUROC、プロプライエタリなベンチマーク(n = 50)で0.92のスコアを達成し、しきい値の校正と部分的な情報漏洩を宣言して評価を行う。
システムはCPU上で平均50ミリ秒のレイテンシで動作し、コストとインフラの制約のある運用環境へのデプロイに適している。
関連論文リスト
- CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z) - Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity [100.07626315557599]
我々は1.58ビットビットネットが完全精度モデルよりも自然にN:M空間と互換性があることを示した。
我々は1.58ビット量子化と動的N:Mスペーサー化を併用した統合フレームワークであるSparse-BitNetを提案する。
論文 参考訳(メタデータ) (2026-03-05T13:37:50Z) - How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - Efficient Jailbreak Mitigation Using Semantic Linear Classification in a Multi-Staged Pipeline [1.2802720336459552]
プロンプトインジェクションとジェイルブレイク攻撃は、大規模言語モデル(LLM)ベースのシステムに永続的なセキュリティ上の課題をもたらす。
我々は,これらの脅威を軽量で多段階のパイプラインを通じて軽減する,効率的かつ体系的に評価された防衛アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:00:35Z) - Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - NNGPT: Rethinking AutoML with Large Language Models [36.90850535125572]
NNGPTは、大規模な言語モデル(LLM)を、ニューラルネットワーク開発のための自己改善型のAutoMLエンジンに変換する、オープンソースのフレームワークである。
ゼロショットアーキテクチャ合成、ハイパーパラメータ最適化、コード認識精度/早期停止予測、強化学習の5つのシナジスティックLLMベースのパイプラインに統合されている。
このシステムは、すでに5K以上の検証済みモデルを生成しており、自律的なAutoMLエンジンとしてNNGPTを証明している。
論文 参考訳(メタデータ) (2025-11-25T14:10:44Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。