論文の概要: Event-Driven Temporal Graph Networks for Asynchronous Multi-Agent Cyber Defense in NetForge_RL
- arxiv url: http://arxiv.org/abs/2604.09523v1
- Date: Fri, 10 Apr 2026 17:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.985195
- Title: Event-Driven Temporal Graph Networks for Asynchronous Multi-Agent Cyber Defense in NetForge_RL
- Title(参考訳): NetForge_RLにおける非同期マルチエージェントサイバーディフェンスのためのイベント駆動型時間グラフネットワーク
- Authors: Igor Jankowski,
- Abstract要約: 我々は、ネットワーク防御を非同期かつ連続的な部分観測可能なセミマルコフ決定プロセス(POSMDP)として再構成する高忠実なサイバー操作シミュレータNetForge_RLを紹介した。
固定ステップニューラル正規微分方程式(ODE)を用いた連続時間グラフMARL(CT-GMARL)を提案する。
CT-GMARLは、"scorched earth"障害モードを避けることで、最強のベースラインよりも12倍の妥協されたサービスを復元する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transition of Multi-Agent Reinforcement Learning (MARL) policies from simulated cyber wargames to operational Security Operations Centers (SOCs) is fundamentally bottlenecked by the Sim2Real gap. Legacy simulators abstract away network protocol physics, rely on synchronous ticks, and provide clean state vectors rather than authentic, noisy telemetry. To resolve these limitations, we introduce NetForge_RL: a high-fidelity cyber operations simulator that reformulates network defense as an asynchronous, continuous-time Partially Observable Semi-Markov Decision Process (POSMDP). NetForge enforces Zero-Trust Network Access (ZTNA) constraints and requires defenders to process NLP-encoded SIEM telemetry. Crucially, NetForge bridges the Sim2Real gap natively via a dual-mode engine, allowing high-throughput MARL training in a mock hypervisor and zero-shot evaluation against live exploits in a Docker hypervisor. To navigate this continuous-time POSMDP, we propose Continuous-Time Graph MARL (CT-GMARL), utilizing fixed-step Neural Ordinary Differential Equations (ODEs) to process irregularly sampled alerts. We evaluate our framework against discrete baselines (R-MAPPO, QMIX). Empirical results demonstrate that CT-GMARL achieves a converged median Blue reward of 57,135 - a 2.0x improvement over R-MAPPO and 2.1x over QMIX. Critically, CT-GMARL restores 12x more compromised services than the strongest baseline by avoiding the "scorched earth" failure mode of trivially minimizing risk by destroying network utility. On zero-shot transfer to the live Docker environment, CT-GMARL policies achieve a median reward of 98,026, validating the Sim2Real bridge.
- Abstract(参考訳): マルチエージェント強化学習(MARL)政策のシミュレーションサイバーウォーゲームから運用セキュリティ運用センター(SOC)への移行は、基本的にSim2Realギャップによってボトルネックとなっている。
レガシーシミュレータは、ネットワークプロトコルの物理を抽象化し、同期ティックスに依存し、真正でノイズの多いテレメトリではなくクリーンな状態ベクトルを提供する。
これらの制限を解決するために,ネットワーク防御を非同期かつ連続的な部分観測可能なセミマルコフ決定プロセス(POSMDP)として再構成する高忠実なサイバー操作シミュレータであるNetForge_RLを紹介した。
NetForgeはZero-Trust Network Access (ZTNA)の制約を強制し、ディフェンダーはNLPエンコードされたSIEMテレメトリを処理する必要がある。
重要なのは、NetForgeはデュアルモードエンジンを介してSim2Realギャップをネイティブにブリッジし、モックハイパーバイザでの高スループットMARLトレーニングとDockerハイパーバイザでのライブエクスプロイトに対するゼロショット評価を可能にする。
この連続時間POSMDPをナビゲートするために,固定ステップニューラル正規微分方程式(ODE)を用いた連続時間グラフMARL(CT-GMARL)を提案する。
離散ベースライン(R-MAPPO, QMIX)に対して,本フレームワークの評価を行った。
実験の結果、CT-GMARLは、R-MAPPOの2.0倍、QMIXの2.1倍である57,135の中央値のブルー報酬を達成できた。
CT-GMARLは、ネットワークユーティリティを破壊してリスクを自明に最小化する"スコッチアース"障害モードを回避することで、最強のベースラインよりも12倍の妥協されたサービスを復元する。
ライブDocker環境へのゼロショット転送では、CT-GMARLポリシが98,026の中央値の報酬を獲得し、Sim2Realブリッジを検証する。
関連論文リスト
- Beyond Reward Suppression: Reshaping Steganographic Communication Protocols in MARL via Dynamic Representational Circuit Breaking [0.0]
監視を回避するためのプライベートプロトコルを開発するエージェントによるステガノグラフィーの共謀は、AIの安全性に重大な脅威をもたらす。
既存の防御は行動層や報酬層に限られており、潜伏する通信路での調整を検知できない。
本稿では,動的表現回路ブレーカ(DRCB)について紹介する。
論文 参考訳(メタデータ) (2026-03-07T04:14:38Z) - It Takes Two to Tango: A Holistic Simulator for Joint Order Scheduling and Multi-Agent Path Finding in Robotic Warehouses [18.101514832695067]
WareRoverはOSとMAPFの動的結合を強制する総合シミュレーションプラットフォームである。
標準ベンチマークとは異なり、WareRoverは順序ストリーム、物理を意識した動作制約、非線形回復機構を単一の評価ループに統合する。
論文 参考訳(メタデータ) (2026-02-15T05:51:58Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - Think Fast: Real-Time IoT Intrusion Reasoning Using IDS and LLMs at the Edge Gateway [5.541753997410371]
本稿では、軽量機械学習(ML)ベースのIDSモデルと事前学習された大規模言語モデル(LLM)を統合したエッジ中心の侵入検知システム(IDS)について述べる。
このシステムは、決定木(DT)、K-Nearest Neighbors(KNN)、ランダムフォレスト(RF)、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、低消費電力エッジゲートウェイ上のハイブリッドCNN-LSTMモデルの6つのMLベースIDSモデルを評価する。
異常検出のために、システムは低帯域APIコールを介してコンパクトでセキュアなテレメトリスナップショットをLSMに送信する。
論文 参考訳(メタデータ) (2025-11-23T00:33:51Z) - Network-Optimised Spiking Neural Network for Event-Driven Networking [2.5941336499463383]
スパイキングニューラルネットワークは、異常検出、ローカルルーティング制御、エッジでの混雑管理など、時間クリティカルなネットワークタスクに適したイベント駆動型計算を提供する。
本稿では,正規化された待ち行列の占有状態と回復資源を符号化したコンパクトな2変数ユニットであるNetwork-Optimized Spiking (NOS)を紹介する。
我々は、データ駆動初期化、リセットシャープネスに基づくホモトピーによる代理段階トレーニング、リソース制約されたデプロイメントのための境界のトポロジによる明確な安定性チェックのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-27T22:31:24Z) - Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - SHIELD: Secure Hypernetworks for Incremental Expansion Learning Defense [0.0]
本稿では,逐次的タスク間で堅牢な連続学習を可能にする新しいフレームワークを提案する。
提案手法であるShielDは,コンパクトなタスク埋め込みのみを前提とした共有ハイパーネットワークにより,タスク固有のモデルパラメータを生成する。
より堅牢性を高めるために,我々は,MixUpポイントを中心とした$ell_infty$ボールとして表現された仮想例をブレンドする,新しいトレーニング戦略であるInterval MixUpを紹介した。
論文 参考訳(メタデータ) (2025-06-09T21:43:56Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。