論文の概要: MALCDF: A Distributed Multi-Agent LLM Framework for Real-Time Cyber
- arxiv url: http://arxiv.org/abs/2512.14846v1
- Date: Tue, 16 Dec 2025 19:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.758187
- Title: MALCDF: A Distributed Multi-Agent LLM Framework for Real-Time Cyber
- Title(参考訳): MALCDF: リアルタイムサイバーのための分散マルチエージェントLLMフレームワーク
- Authors: Arth Bhardwaj, Sia Godika, Yuvam Loonker,
- Abstract要約: 4つの大規模言語モデル(LLM)エージェント-検出、インテリジェンス、応答、分析をリアルタイムで協調する。
エージェントはセキュア通信層(SCL)上で暗号化されたオントロジー対応のメッセージと通信し、監査に優しい出力を生成する。
MALCDFは検出精度が90.0%、F1スコア85.7%、偽陽性率9.1%に達し、1時間あたり平均6.8秒の遅延がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Traditional, centralized security tools often miss adaptive, multi-vector attacks. We present the Multi-Agent LLM Cyber Defense Framework (MALCDF), a practical setup where four large language model (LLM) agents-Detection, Intelligence, Response, and Analysis-work together in real time. Agents communicate over a Secure Communication Layer (SCL) with encrypted, ontology-aligned messages, and produce audit-friendly outputs (e.g., MITRE ATT&CK mappings). For evaluation, we keep the test simple and consistent: all reported metrics come from the same 50-record live stream derived from the CICIDS2017 feature schema. CICIDS2017 is used for configuration (fields/schema) and to train a practical ML baseline. The ML-IDS baseline is a Lightweight Random Forest IDS (LRF-IDS) trained on a subset of CICIDS2017 and tested on the 50-record stream, with no overlap between training and test records. In experiments, MALCDF reaches 90.0% detection accuracy, 85.7% F1-score, and 9.1% false-positive rate, with 6.8s average per-event latency. It outperforms the lightweight ML-IDS baseline and a single-LLM setup on accuracy while keeping end-to-end outputs consistent. Overall, this hands-on build suggests that coordinating simple LLM agents with secure, ontology-aligned messaging can improve practical, real-time cyber defense.
- Abstract(参考訳): 従来型の集中型セキュリティツールは、適応型マルチベクター攻撃を見逃すことが多い。
マルチエージェントLLMサイバーディフェンスフレームワーク(MALCDF)は,4つの大規模言語モデル(LLM)エージェント-検出,インテリジェンス,応答,分析-をリアルタイムに連携させる実践的なセットアップである。
エージェントはセキュア通信層(SCL)上で暗号化されたオントロジー対応のメッセージと通信し、監査フレンドリな出力(例えば、MITRE ATT&CKマッピング)を生成する。
レポートされたすべてのメトリクスは、CICIDS2017の機能スキーマから派生した50レコードのライブストリームから得られます。
CICIDS2017は、設定(フィールド/スキーマ)と実用的なMLベースラインのトレーニングに使用される。
ML-IDSベースラインは軽量ランダムフォレストIDS(LRF-IDS)で、CICIDS2017のサブセットで訓練され、50レコードストリームでテストされる。
実験では、MALCDFは検出精度90.0%、F1スコア85.7%、偽陽性率9.1%に達する。
軽量のML-IDSベースラインと単一LLMセットアップの精度を向上し、エンドツーエンド出力の一貫性を維持している。
全体として、このハンズオンビルドは、シンプルなLLMエージェントをセキュアでオントロジーに整合したメッセージでコーディネートすることで、実用的なリアルタイムサイバー防御を改善することを示唆している。
関連論文リスト
- MCP-RiskCue: Can LLM Infer Risk Information From MCP Server System Logs? [3.4468299705073133]
システムログからセキュリティリスクを識別する大規模言語モデルの能力を評価するための,最初の総合ベンチマークを示す。
MCPサーバのリスクの9つのカテゴリを定義し,10の最先端LCMを用いて1,800の合成システムログを生成する。
実験では、小さなモデルではリスクの高いシステムログの検出に失敗することが多く、偽陽性につながることが判明した。
論文 参考訳(メタデータ) (2025-11-08T05:52:53Z) - Guided Reasoning in LLM-Driven Penetration Testing Using Structured Attack Trees [1.2397617816774036]
サイバーセキュリティの侵入テストのための既存のLarge Language Models (LLMs) は自己誘導推論に依存している。
我々は,MITRE ATT&CK Matrix から構築された決定論的タスクツリーを組み込んだ LLM エージェントの侵入試験のためのガイド付き推論パイプラインを提案する。
Llama-3-8B, Gemini-1.5, GPT-4を用いてLLMを71.8%, 72.8%, 78.6%のサブタスクに誘導した。
論文 参考訳(メタデータ) (2025-09-09T17:19:33Z) - MCP-Guard: A Defense Framework for Model Context Protocol Integrity in Large Language Model Applications [21.70488724213541]
大規模言語モデルと外部ツールの統合は、重大なセキュリティ脆弱性をもたらす。
LLM-toolインタラクション用に設計されたロバストな層状防御アーキテクチャであるMPP-Guardを提案する。
MCP-AttackBenchも紹介します。
論文 参考訳(メタデータ) (2025-08-14T18:00:25Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。