論文の概要: MALCDF: A Distributed Multi-Agent LLM Framework for Real-Time Cyber
- arxiv url: http://arxiv.org/abs/2512.14846v1
- Date: Tue, 16 Dec 2025 19:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.758187
- Title: MALCDF: A Distributed Multi-Agent LLM Framework for Real-Time Cyber
- Title(参考訳): MALCDF: リアルタイムサイバーのための分散マルチエージェントLLMフレームワーク
- Authors: Arth Bhardwaj, Sia Godika, Yuvam Loonker,
- Abstract要約: 4つの大規模言語モデル(LLM)エージェント-検出、インテリジェンス、応答、分析をリアルタイムで協調する。
エージェントはセキュア通信層(SCL)上で暗号化されたオントロジー対応のメッセージと通信し、監査に優しい出力を生成する。
MALCDFは検出精度が90.0%、F1スコア85.7%、偽陽性率9.1%に達し、1時間あたり平均6.8秒の遅延がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Traditional, centralized security tools often miss adaptive, multi-vector attacks. We present the Multi-Agent LLM Cyber Defense Framework (MALCDF), a practical setup where four large language model (LLM) agents-Detection, Intelligence, Response, and Analysis-work together in real time. Agents communicate over a Secure Communication Layer (SCL) with encrypted, ontology-aligned messages, and produce audit-friendly outputs (e.g., MITRE ATT&CK mappings). For evaluation, we keep the test simple and consistent: all reported metrics come from the same 50-record live stream derived from the CICIDS2017 feature schema. CICIDS2017 is used for configuration (fields/schema) and to train a practical ML baseline. The ML-IDS baseline is a Lightweight Random Forest IDS (LRF-IDS) trained on a subset of CICIDS2017 and tested on the 50-record stream, with no overlap between training and test records. In experiments, MALCDF reaches 90.0% detection accuracy, 85.7% F1-score, and 9.1% false-positive rate, with 6.8s average per-event latency. It outperforms the lightweight ML-IDS baseline and a single-LLM setup on accuracy while keeping end-to-end outputs consistent. Overall, this hands-on build suggests that coordinating simple LLM agents with secure, ontology-aligned messaging can improve practical, real-time cyber defense.
- Abstract(参考訳): 従来型の集中型セキュリティツールは、適応型マルチベクター攻撃を見逃すことが多い。
マルチエージェントLLMサイバーディフェンスフレームワーク(MALCDF)は,4つの大規模言語モデル(LLM)エージェント-検出,インテリジェンス,応答,分析-をリアルタイムに連携させる実践的なセットアップである。
エージェントはセキュア通信層(SCL)上で暗号化されたオントロジー対応のメッセージと通信し、監査フレンドリな出力(例えば、MITRE ATT&CKマッピング)を生成する。
レポートされたすべてのメトリクスは、CICIDS2017の機能スキーマから派生した50レコードのライブストリームから得られます。
CICIDS2017は、設定(フィールド/スキーマ)と実用的なMLベースラインのトレーニングに使用される。
ML-IDSベースラインは軽量ランダムフォレストIDS(LRF-IDS)で、CICIDS2017のサブセットで訓練され、50レコードストリームでテストされる。
実験では、MALCDFは検出精度90.0%、F1スコア85.7%、偽陽性率9.1%に達する。
軽量のML-IDSベースラインと単一LLMセットアップの精度を向上し、エンドツーエンド出力の一貫性を維持している。
全体として、このハンズオンビルドは、シンプルなLLMエージェントをセキュアでオントロジーに整合したメッセージでコーディネートすることで、実用的なリアルタイムサイバー防御を改善することを示唆している。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - $α^3$-Bench: A Unified Benchmark of Safety, Robustness, and Efficiency for LLM-Based UAV Agents over 6G Networks [3.099103925863002]
3ドルベンチは無人航空機の自律性を評価するためのベンチマークである。
各ミッションは、LLMベースのUAVエージェントと人間のオペレータ間の言語経由の制御ループとして定式化される。
UAVBenchシナリオに基づく113kの会話型UAVエピソードの大規模コーパスを構築した。
本稿では,タスクアウトカム,安全ポリシ,ツール一貫性,インタラクション品質,ネットワークロバストネス,通信コストの6つの柱を統合した3ドルの複合指標を提案する。
論文 参考訳(メタデータ) (2026-01-01T12:07:06Z) - MCP-RiskCue: Can LLM Infer Risk Information From MCP Server System Logs? [3.4468299705073133]
システムログからセキュリティリスクを識別する大規模言語モデルの能力を評価するための,最初の総合ベンチマークを示す。
MCPサーバのリスクの9つのカテゴリを定義し,10の最先端LCMを用いて1,800の合成システムログを生成する。
実験では、小さなモデルではリスクの高いシステムログの検出に失敗することが多く、偽陽性につながることが判明した。
論文 参考訳(メタデータ) (2025-11-08T05:52:53Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Guided Reasoning in LLM-Driven Penetration Testing Using Structured Attack Trees [1.2397617816774036]
サイバーセキュリティの侵入テストのための既存のLarge Language Models (LLMs) は自己誘導推論に依存している。
我々は,MITRE ATT&CK Matrix から構築された決定論的タスクツリーを組み込んだ LLM エージェントの侵入試験のためのガイド付き推論パイプラインを提案する。
Llama-3-8B, Gemini-1.5, GPT-4を用いてLLMを71.8%, 72.8%, 78.6%のサブタスクに誘導した。
論文 参考訳(メタデータ) (2025-09-09T17:19:33Z) - MCP-Guard: A Defense Framework for Model Context Protocol Integrity in Large Language Model Applications [21.70488724213541]
大規模言語モデルと外部ツールの統合は、重大なセキュリティ脆弱性をもたらす。
LLM-toolインタラクション用に設計されたロバストな層状防御アーキテクチャであるMPP-Guardを提案する。
MCP-AttackBenchも紹介します。
論文 参考訳(メタデータ) (2025-08-14T18:00:25Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - PCS: Perceived Confidence Scoring of Black Box LLMs with Metamorphic Relations [13.99995125334968]
メタモーフィックリレーショナル(MR)を利用してテキスト入力を分類するLLMの信頼性を評価する手法を提案する。
MRは意味論的に等価だが、テキスト的に異なる入力バージョンを生成する。
予測されたラベルの周波数に基づいて、認識された信頼度スコア(PCS)を算出する。
論文 参考訳(メタデータ) (2025-02-11T02:25:44Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。