論文の概要: Adversarial Distilled Retrieval-Augmented Guarding Model for Online Malicious Intent Detection
- arxiv url: http://arxiv.org/abs/2509.14622v1
- Date: Thu, 18 Sep 2025 05:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.069929
- Title: Adversarial Distilled Retrieval-Augmented Guarding Model for Online Malicious Intent Detection
- Title(参考訳): オンライン悪性腫瘍検出のための対数蒸留検索強化ガードモデル
- Authors: Yihao Guo, Haocheng Bian, Liutong Zhou, Ze Wang, Zhaoyi Zhang, Francois Kawala, Milan Dean, Ian Fischer, Yuantao Peng, Noyan Tokgozoglu, Ivan Barrientos, Riyaaz Shaik, Rachel Li, Chandru Venkataraman, Reza Shifteh Far, Moses Pawar, Venkat Sundaranatha, Michael Xu, Frank Chu,
- Abstract要約: ADRAGは、堅牢で効率的なオンライン悪意のある意図検出のための2段階のフレームワークである。
リアルタイムアプリケーションでは、毎秒300クエリで最大5.6倍のレイテンシを提供する。
- 参考スコア(独自算出の注目度): 6.712341601927647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the deployment of Large Language Models (LLMs) in interactive applications, online malicious intent detection has become increasingly critical. However, existing approaches fall short of handling diverse and complex user queries in real time. To address these challenges, we introduce ADRAG (Adversarial Distilled Retrieval-Augmented Guard), a two-stage framework for robust and efficient online malicious intent detection. In the training stage, a high-capacity teacher model is trained on adversarially perturbed, retrieval-augmented inputs to learn robust decision boundaries over diverse and complex user queries. In the inference stage, a distillation scheduler transfers the teacher's knowledge into a compact student model, with a continually updated knowledge base collected online. At deployment, the compact student model leverages top-K similar safety exemplars retrieved from the online-updated knowledge base to enable both online and real-time malicious query detection. Evaluations across ten safety benchmarks demonstrate that ADRAG, with a 149M-parameter model, achieves 98.5% of WildGuard-7B's performance, surpasses GPT-4 by 3.3% and Llama-Guard-3-8B by 9.5% on out-of-distribution detection, while simultaneously delivering up to 5.6x lower latency at 300 queries per second (QPS) in real-time applications.
- Abstract(参考訳): 対話型アプリケーションにLLM(Large Language Models)が配備されるにつれ、オンラインの悪意のある意図検出がますます重要になっている。
しかし、既存のアプローチでは、多様な複雑なユーザクエリをリアルタイムで処理することができない。
これらの課題に対処するため、我々は、オンライン悪意のある意図の検出を堅牢かつ効率的に行うための2段階のフレームワークであるADRAG(Adversarial Distilled Retrieval-Augmented Guard)を紹介した。
トレーニング段階では、多種多様な複雑なユーザクエリに対して堅牢な意思決定境界を学習するために、対向的に摂動した、検索強化された入力に基づいて高容量の教師モデルを訓練する。
推論段階では、蒸留スケジューラが教師の知識をコンパクトな学生モデルに転送し、継続的に更新された知識ベースをオンラインで収集する。
デプロイ時に、コンパクトな学生モデルは、オンライン更新された知識ベースから取得したトップKに似た安全性の例を利用して、オンラインおよびリアルタイムの悪意のあるクエリ検出を可能にする。
10の安全ベンチマークによる評価では、ADRAGは149Mパラメータモデルで、GPT-4を3.3%、Llama-Guard-3-8Bを9.5%、リアルタイムアプリケーションでは最大5.6倍のレイテンシを毎秒300クエリ(QPS)で実現している。
関連論文リスト
- KD-GAT: Combining Knowledge Distillation and Graph Attention Transformer for a Controller Area Network Intrusion Detection System [0.0]
コントローラエリアネットワーク(CAN)プロトコルは車内通信に広く採用されているが、固有のセキュリティ機構がない。
本稿では,グラフ注意ネットワーク(GAT)と知識蒸留を組み合わせた侵入検知フレームワークであるKD-GATを紹介する。
論文 参考訳(メタデータ) (2025-07-25T21:45:58Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Unlearn and Burn: Adversarial Machine Unlearning Requests Destroy Model Accuracy [65.80757820884476]
未学習システムのデプロイにおいて、重要で未調査の脆弱性を公開しています。
本稿では,訓練セットに存在しないデータに対して,逆学習要求を送信することにより,攻撃者がモデル精度を劣化させることができる脅威モデルを提案する。
我々は、未学習要求の正当性を検出するための様々な検証メカニズムを評価し、検証の課題を明らかにする。
論文 参考訳(メタデータ) (2024-10-12T16:47:04Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。
この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。
その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文 参考訳(メタデータ) (2023-09-27T20:58:13Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Online Continual Learning via Multiple Deep Metric Learning and
Uncertainty-guided Episodic Memory Replay -- 3rd Place Solution for ICCV 2021
Workshop SSLAD Track 3A Continual Object Classification [41.35216156491142]
オンライン連続学習における非定常性は、ニューラルネットワークにおける破滅的な忘れを招きかねない。
提案手法は,平均平均クラス精度(AMCA)64.01%,テストセット64.53%のAMCAでかなりの一般化を実現する。
論文 参考訳(メタデータ) (2021-11-04T11:16:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。