Fugu-MT 論文翻訳(概要): Dual-Graph Multi-Agent Reinforcement Learning for Handover Optimization

論文の概要: Dual-Graph Multi-Agent Reinforcement Learning for Handover Optimization

arxiv url: http://arxiv.org/abs/2603.24634v1
Date: Wed, 25 Mar 2026 08:48:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:47.903477
Title: Dual-Graph Multi-Agent Reinforcement Learning for Handover Optimization
Title（参考訳）: ハンドオーバ最適化のためのデュアルグラフマルチエージェント強化学習
Authors: Matteo Salvatori, Filippo Vannella, Sebastian Macaluso, Stylianos E. Trevlakis, Carlos Segura Perales, José Suarez-Varela, Alexandros-Apostolos A. Boulogeorgos, Ioannis Arapakis,
Abstract要約: 異種交通網をまたいだ実ネットワーク演算子パラメータを構成したns-3システムレベルシミュレータにおけるTD3-D-MAを提案する。その結果,TD3-D-MAはネットワークスループットのオーバーロジ標準であるHO3-Dlyを一般化した。
参考スコア（独自算出の注目度）: 39.348940144274515
License: http://creativecommons.org/licenses/by/4.0/
Abstract: HandOver (HO) control in cellular networks is governed by a set of HO control parameters that are traditionally configured through rule-based heuristics. A key parameter for HO optimization is the Cell Individual Offset (CIO), defined for each pair of neighboring cells and used to bias HO triggering decisions. At network scale, tuning CIOs becomes a tightly coupled problem: small changes can redirect mobility flows across multiple neighbors, and static rules often degrade under non-stationary traffic and mobility. We exploit the pairwise structure of CIOs by formulating HO optimization as a Decentralized Partially Observable Markov Decision Process (Dec-POMDP) on the network's dual graph. In this representation, each agent controls a neighbor-pair CIO and observes Key Performance Indicators (KPIs) aggregated over its local dual-graph neighborhood, enabling scalable decentralized decisions while preserving graph locality. Building on this formulation, we propose TD3-D-MA, a discrete Multi-Agent Reinforcement Learning (MARL) variant of the TD3 algorithm with a shared-parameter Graph Neural Network (GNN) actor operating on the dual graph and region-wise double critics for training, improving credit assignment in dense deployments. We evaluate TD3-D-MA in an ns-3 system-level simulator configured with real-world network operator parameters across heterogeneous traffic regimes and network topologies. Results show that TD3-D-MA improves network throughput over standard HO heuristics and centralized RL baselines, and generalizes robustly under topology and traffic shifts.
Abstract（参考訳）: セルラーネットワークにおけるHandOver(HO)制御は、ルールベースのヒューリスティックによって伝統的に構成されるHO制御パラメータのセットによって制御される。 HO最適化の鍵となるパラメータはCell Individual Offset (CIO) である。小さな変更は複数の隣国をまたいでモビリティフローをリダイレクトし、静的なルールは非定常的なトラフィックとモビリティの下でしばしば低下する。我々は、ネットワークの双対グラフ上の分散部分観測可能なマルコフ決定プロセス(Dec-POMDP)としてHO最適化を定式化し、CIOのペア構造を利用する。この表現では、各エージェントが隣のペアCIOを制御し、そのローカルなデュアルグラフ地区に集約されたキーパフォーマンス指標(KPI)を観察し、グラフの局所性を維持しながらスケーラブルな分散決定を可能にする。この定式化に基づいてTD3-D-MAを提案する。これはTD3アルゴリズムの離散的マルチエージェント強化学習(MARL)変種であり、デュアルグラフ上での共有パラメータグラフニューラルネットワーク(GNN)アクタと、トレーニングのための地域的2つの批判、密集デプロイメントにおけるクレジット割り当ての改善である。我々は、異種交通網とネットワークトポロジをまたいだ実世界のネットワーク演算子パラメータを構成したns-3システムレベルシミュレータにおいて、TD3-D-MAを評価する。その結果,TD3-D-MAは標準的なHOヒューリスティックスや集中型RLベースラインよりもネットワークスループットを向上し,トポロジやトラフィックシフトの下では強固に一般化することがわかった。

関連論文リスト

Factored Value Functions for Graph-Based Multi-Agent Reinforcement Learning [0.0]
信用割当はマルチエージェント強化学習(MARL)における中核的課題である DVF(Diffusion Value Function)は、時間的割引と空間減衰で影響グラフ上の報酬を拡散することにより、各エージェントに値成分を割り当てるGMDPの因子値関数である。 DVF は well-defined であり、ベルマンの不動点を許容し、平均値を用いてグローバル割引値を分解することを示す。本稿では,Diffusion A2C (DA2C) と疎メッセージパッシングアクタであるLearned DropEdge GNN (LD-GNN) を提案する。
論文参考訳（メタデータ） (2026-01-16T16:11:50Z)
Power Grid Control with Graph-Based Distributed Reinforcement Learning [60.49805771047161]
この作業は、リアルタイムでスケーラブルなグリッド管理のためのグラフベースの分散強化学習フレームワークを前進させる。グラフニューラルネットワーク(GNN)を使用して、ネットワークのトポロジ情報を単一の低レベルエージェントの観測内にエンコードする。 Grid2Opシミュレーション環境での実験は、このアプローチの有効性を示している。
論文参考訳（メタデータ） (2025-09-02T22:17:25Z)
Scalable spectral representations for multi-agent reinforcement learning in network MDPs [13.782868855372774]
マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
論文参考訳（メタデータ） (2024-10-22T17:45:45Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Multi-agent Reinforcement Learning with Graph Q-Networks for Antenna Tuning [60.94661435297309]
モバイルネットワークの規模は、手作業による介入や手作業による戦略を使ってアンテナパラメータの最適化を困難にしている。本研究では,モバイルネットワーク構成をグローバルに最適化するマルチエージェント強化学習アルゴリズムを提案する。シミュレーション環境におけるアンテナ傾き調整問題とジョイント傾き・電力制御問題に対するアルゴリズムの性能を実証的に示す。
論文参考訳（メタデータ） (2023-01-20T17:06:34Z)
Feudal Multi-Agent Reinforcement Learning with Adaptive Network Partition for Traffic Signal Control [44.09601435685123]
マルチエージェント強化学習 (MARL) を応用し, 交通信号制御に大きな可能性を示した。以前の作業では、トラフィックネットワークを複数のリージョンに分割し、封建的構造におけるエージェントのポリシーを学ぶ。適応型ネットワーク分割を用いた新しい封建的MARL手法を提案する。
論文参考訳（メタデータ） (2022-05-27T09:02:10Z)
Multi-path Neural Networks for On-device Multi-domain Visual Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文参考訳（メタデータ） (2020-10-10T05:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。