論文の概要: A Scalable Approach to Solving Simulation-Based Network Security Games
- arxiv url: http://arxiv.org/abs/2602.16564v1
- Date: Wed, 18 Feb 2026 16:07:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.642224
- Title: A Scalable Approach to Solving Simulation-Based Network Security Games
- Title(参考訳): シミュレーションに基づくネットワークセキュリティゲームのためのスケーラブルなアプローチ
- Authors: Michael Lanier, Yevgeniy Vorobeychik,
- Abstract要約: MetaDOARは、Double Oracle / PSROパラダイムを強化する軽量なメタコントローラで、学習されたパーティション対応のフィルタリングレイヤとQ値キャッシュを導入します。
そこで,MetaDOARは,大規模なネットワークトポロジ上でのSOTAベースラインよりも高いプレイヤーペイオフを実現していることを示す。
- 参考スコア(独自算出の注目度): 25.03517675615591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MetaDOAR, a lightweight meta-controller that augments the Double Oracle / PSRO paradigm with a learned, partition-aware filtering layer and Q-value caching to enable scalable multi-agent reinforcement learning on very large cyber-network environments. MetaDOAR learns a compact state projection from per node structural embeddings to rapidly score and select a small subset of devices (a top-k partition) on which a conventional low-level actor performs focused beam search utilizing a critic agent. Selected candidate actions are evaluated with batched critic forwards and stored in an LRU cache keyed by a quantized state projection and local action identifiers, dramatically reducing redundant critic computation while preserving decision quality via conservative k-hop cache invalidation. Empirically, MetaDOAR attains higher player payoffs than SOTA baselines on large network topologies, without significant scaling issues in terms of memory usage or training time. This contribution provide a practical, theoretically motivated path to efficient hierarchical policy learning for large-scale networked decision problems.
- Abstract(参考訳): MetaDOARは、Double Oracle / PSROパラダイムを学習されたパーティション対応フィルタリング層とQ値キャッシュで強化し、非常に大規模なサイバーネットワーク環境でスケーラブルなマルチエージェント強化学習を可能にする軽量なメタコントローラである。
MetaDOARは、ノード構造埋め込み毎にコンパクトな状態プロジェクションを学習し、迅速にスコアし、従来の低レベルアクターが批判エージェントを用いて集中ビームサーチを行うデバイスの小さなサブセット(トップ-kパーティション)を選択する。
選択された候補動作は、バッチされた批判フォワードで評価され、量子化された状態投影と局所アクション識別子によってキーされたLRUキャッシュに格納され、保守的なkホップキャッシュ無効化による決定品質を維持しながら、冗長な批判計算を劇的に低減する。
経験的に、MetaDOARは大きなネットワークトポロジ上のSOTAベースラインよりも高いプレイヤーペイオフを実現している。
この貢献は、大規模ネットワーク決定問題に対する効率的な階層的政策学習への実践的で理論的に動機付けられた道を提供する。
関連論文リスト
- Resource-Aware Neural Network Pruning Using Graph-based Reinforcement Learning [0.8890833546984916]
本稿では,グラフベースの観測空間をAutoMLフレームワークに統合することで,ニューラルネットワークのプルーニングに新たなアプローチを提案する。
本フレームワークは,対象ニューラルネットワークのグラフ表現を導入することにより,刈り込み処理を変換する。
作用空間に対しては、連続プルーニング比から細粒な二分作用空間へ遷移する。
論文 参考訳(メタデータ) (2025-09-04T15:05:05Z) - RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation [51.37553739930992]
RPCANet++は、RPCAの解釈可能性と効率的なディープアーキテクチャを融合したスパースオブジェクトセグメンテーションフレームワークである。
我々のアプローチは、緩やかなRPCAモデルを背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像復元モジュール(IRM)からなる構造化ネットワークに展開する。
さまざまなデータセットの実験では、RPCANet++がさまざまなイメージングシナリオの下で最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-08-06T08:19:37Z) - LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。
LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。
実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-15T12:14:16Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - SGLP: A Similarity Guided Fast Layer Partition Pruning for Compressing Large Deep Models [19.479746878680707]
レイヤプルーニングは、ネットワークサイズを削減し、計算効率を向上させるための強力なアプローチである。
大規模深層モデル圧縮のための類似性誘導高速層分割プルーニングを提案する。
本手法は精度と計算効率の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-10-14T04:01:08Z) - A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Semi-supervised Network Embedding with Differentiable Deep Quantisation [81.49184987430333]
我々はネットワーク埋め込みのための微分可能な量子化法であるd-SNEQを開発した。
d-SNEQは、学習された量子化符号にリッチな高次情報を与えるためにランク損失を組み込む。
トレーニング済みの埋め込みのサイズを大幅に圧縮できるため、ストレージのフットプリントが減少し、検索速度が向上する。
論文 参考訳(メタデータ) (2021-08-20T11:53:05Z) - Discretization-Aware Architecture Search [81.35557425784026]
本稿では,離散化対応アーキテクチャサーチ(DAtextsuperscript2S)を提案する。
中心となる考え方は、超ネットワークを所望のトポロジの構成に向けることであり、離散化による精度損失がほとんど軽減される。
標準画像分類ベンチマークの実験は、我々のアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2020-07-07T01:18:58Z) - Reinforcement Learning Based Cooperative Coded Caching under Dynamic
Popularities in Ultra-Dense Networks [38.44125997148742]
小規模基地局(SBS)のキャッシュ戦略は、膨大なデータレート要求を満たすために重要である。
我々は、強化学習(RL)を利用して、最大距離分離可能(MDS)符号化による協調的なキャッシュ戦略を設計する。
論文 参考訳(メタデータ) (2020-03-08T10:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。