論文の概要: Transformer-Based Scalable Multi-Agent Reinforcement Learning for Networked Systems with Long-Range Interactions
- arxiv url: http://arxiv.org/abs/2511.13103v1
- Date: Mon, 17 Nov 2025 07:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.977227
- Title: Transformer-Based Scalable Multi-Agent Reinforcement Learning for Networked Systems with Long-Range Interactions
- Title(参考訳): 長距離相互作用をもつネットワークシステムに対するトランスフォーマーに基づくスケーラブルなマルチエージェント強化学習
- Authors: Vidur Sinha, Muhammed Ustaomeroglu, Guannan Qu,
- Abstract要約: マルチエージェント強化学習は大規模ネットワーク制御を約束するが、既存の手法には2つの大きな制限がある。
両課題に対処する統合トランスフォーマーベースのMARLフレームワークSTACCAを紹介する。
本研究は,STACCAの性能向上,ネットワークの一般化,スケーラビリティを実証し,流行の封じ込めや噂を流すネットワーク制御タスクについて評価する。
- 参考スコア(独自算出の注目度): 5.779641295178066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) has shown promise for large-scale network control, yet existing methods face two major limitations. First, they typically rely on assumptions leading to decay properties of local agent interactions, limiting their ability to capture long-range dependencies such as cascading power failures or epidemic outbreaks. Second, most approaches lack generalizability across network topologies, requiring retraining when applied to new graphs. We introduce STACCA (Shared Transformer Actor-Critic with Counterfactual Advantage), a unified transformer-based MARL framework that addresses both challenges. STACCA employs a centralized Graph Transformer Critic to model long-range dependencies and provide system-level feedback, while its shared Graph Transformer Actor learns a generalizable policy capable of adapting across diverse network structures. Further, to improve credit assignment during training, STACCA integrates a novel counterfactual advantage estimator that is compatible with state-value critic estimates. We evaluate STACCA on epidemic containment and rumor-spreading network control tasks, demonstrating improved performance, network generalization, and scalability. These results highlight the potential of transformer-based MARL architectures to achieve scalable and generalizable control in large-scale networked systems.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、大規模なネットワーク制御を約束するが、既存の手法には2つの大きな制限がある。
第一に、それらは通常、局所的なエージェント相互作用の崩壊特性をもたらす仮定に依存し、カスケードパワー障害やアウトブレイクアウトのような長距離依存を捕捉する能力を制限する。
第二に、ほとんどのアプローチはネットワークトポロジにまたがる一般化性に欠けており、新しいグラフに適用する際には再訓練が必要である。
本稿では,STACCA(Shared Transformer Actor-Critic with Counterfactual Advantage)を導入する。
STACCAは、長距離依存をモデル化し、システムレベルのフィードバックを提供するために、中央集権的なグラフトランスフォーマー批判(Graph Transformer Critic)を採用している。
さらに、トレーニング中のクレジット割り当てを改善するために、STACCAは、国家価値評価と互換性のある新しい対実的優位推定器を統合する。
本研究は,STACCAの性能向上,ネットワークの一般化,スケーラビリティを実証し,流行の封じ込めや噂を流すネットワーク制御タスクについて評価する。
これらの結果は、大規模ネットワークシステムにおいてスケーラブルで一般化可能な制御を実現するためのトランスフォーマーベースのMARLアーキテクチャの可能性を強調している。
関連論文リスト
- Resource Allocation in Hybrid Radio-Optical IoT Networks using GNN with Multi-task Learning [11.833896722352568]
本稿では,光ニューラルOWCと電波周波数(RF)を統合したハイブリッドモノのインターネット(IoT)ネットワークにおけるデュアルテクノロジースケジューリングの問題に対処する。
本稿では,2段階グラフ埋め込みとトランスフォーマー(DGET)フレームワークを組み合わせた教師付きマルチタスク学習アーキテクチャを提案する。
提案フレームワークは、90%以上の分類精度で最適に近いスケジューリングを実現し、計算複雑性を低減し、部分的なチャネルオブザーバビリティの下で高いロバスト性を示す。
論文 参考訳(メタデータ) (2025-10-29T15:02:28Z) - Causality Meets Locality: Provably Generalizable and Scalable Policy Learning for Networked Systems [26.67939638191807]
トラフィック、電力、無線グリッドなどの大規模ネットワークシステムでは、スケールと環境の両方のシフトで強化学習エージェントに挑戦する。
本稿では,因果表現学習とメタアクタ批判学習を組み合わせ,拡張性とドメインの一般化を両立させるフレームワークGSACを提案する。
GSACの適応は,スクラッチや従来の適応ベースラインよりも速く,はるかに優れていた。
論文 参考訳(メタデータ) (2025-10-24T13:06:43Z) - Model-Based Transfer Learning for Real-Time Damage Assessment of Bridge Networks [0.0]
本研究では,ニューラルネットワークサロゲートモデルを用いたモデルに基づく移動学習手法を提案する。
これらのモデルは共有障害メカニズムをキャプチャし、スケーラブルで汎用的な監視フレームワークをサポートする。
その結果,損傷部位,重症度,範囲に高い感度が認められた。
論文 参考訳(メタデータ) (2025-09-09T11:29:44Z) - Power Grid Control with Graph-Based Distributed Reinforcement Learning [60.49805771047161]
この作業は、リアルタイムでスケーラブルなグリッド管理のためのグラフベースの分散強化学習フレームワークを前進させる。
グラフニューラルネットワーク(GNN)を使用して、ネットワークのトポロジ情報を単一の低レベルエージェントの観測内にエンコードする。
Grid2Opシミュレーション環境での実験は、このアプローチの有効性を示している。
論文 参考訳(メタデータ) (2025-09-02T22:17:25Z) - Grid-Agent: An LLM-Powered Multi-Agent System for Power Grid Control [4.3210078529580045]
本稿では、グリッド違反を検出し、修正する自律型AI駆動フレームワークであるGrid-Agentを紹介する。
Grid-Agentは、意味論的推論とモジュラーエージェントによる数値的精度を統合する。
IEEEおよびCIGREベンチマークネットワークの実験は、優れた緩和性能を示す。
論文 参考訳(メタデータ) (2025-08-07T01:10:28Z) - A Wireless Foundation Model for Multi-Task Prediction [50.21098141769079]
多様な予測区間をサポートする無線ネットワークにおけるマルチタスク予測のための統合基盤モデルを提案する。
大規模データセットをトレーニングした後、提案した基礎モデルは、新しいタスクにおいて、目に見えないシナリオとゼロショットのパフォーマンスに強力な一般化を示す。
論文 参考訳(メタデータ) (2025-07-08T12:37:55Z) - Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。