論文の概要: NetworkGym: Reinforcement Learning Environments for Multi-Access Traffic Management in Network Simulation
- arxiv url: http://arxiv.org/abs/2411.04138v1
- Date: Wed, 30 Oct 2024 01:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 11:30:36.897871
- Title: NetworkGym: Reinforcement Learning Environments for Multi-Access Traffic Management in Network Simulation
- Title(参考訳): NetworkGym:ネットワークシミュレーションにおけるマルチアクセストラフィック管理のための強化学習環境
- Authors: Momin Haider, Ming Yin, Menglei Zhang, Arpit Gupta, Jing Zhu, Yu-Xiang Wang,
- Abstract要約: 本稿では,高忠実度ネットワーク環境シミュレータであるtextitNetworkGymを紹介する。
マルチアクセストラフィック分割問題に対する異なるRLベースのソリューションのトレーニングと評価を容易にする。
また、Pessimistic TD3 (PTD3) と呼ばれるTD3+BCアルゴリズムの拡張を提案し、最先端のオフラインRLアルゴリズムよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 27.353473477645576
- License:
- Abstract: Mobile devices such as smartphones, laptops, and tablets can often connect to multiple access networks (e.g., Wi-Fi, LTE, and 5G) simultaneously. Recent advancements facilitate seamless integration of these connections below the transport layer, enhancing the experience for apps that lack inherent multi-path support. This optimization hinges on dynamically determining the traffic distribution across networks for each device, a process referred to as \textit{multi-access traffic splitting}. This paper introduces \textit{NetworkGym}, a high-fidelity network environment simulator that facilitates generating multiple network traffic flows and multi-access traffic splitting. This simulator facilitates training and evaluating different RL-based solutions for the multi-access traffic splitting problem. Our initial explorations demonstrate that the majority of existing state-of-the-art offline RL algorithms (e.g. CQL) fail to outperform certain hand-crafted heuristic policies on average. This illustrates the urgent need to evaluate offline RL algorithms against a broader range of benchmarks, rather than relying solely on popular ones such as D4RL. We also propose an extension to the TD3+BC algorithm, named Pessimistic TD3 (PTD3), and demonstrate that it outperforms many state-of-the-art offline RL algorithms. PTD3's behavioral constraint mechanism, which relies on value-function pessimism, is theoretically motivated and relatively simple to implement.
- Abstract(参考訳): スマートフォン、ラップトップ、タブレットなどのモバイルデバイスは、複数のアクセスネットワーク(例えば、Wi-Fi、LTE、および5G)に同時に接続することができる。
最近の進歩は、トランスポート層の下にこれらの接続をシームレスに統合し、固有のマルチパスサポートが欠如しているアプリのエクスペリエンスを向上させる。
この最適化は、各デバイスに対するネットワーク間のトラフィック分布を動的に決定すること、すなわち \textit{multi- Access traffic splitting} と呼ばれるプロセスである。
本稿では,複数のネットワークトラフィックフローの生成とマルチアクセストラフィック分割を容易にする高忠実度ネットワーク環境シミュレータであるtextit{NetworkGym}を紹介する。
このシミュレータは、マルチアクセストラフィック分割問題に対する異なるRLベースのソリューションのトレーニングと評価を容易にする。
最初の調査では、既存の最先端のオフラインRLアルゴリズム(例えばCQL)の大部分が、手作りのヒューリスティックなポリシーを平均よりも上回っていないことが示されています。
これは、D4RLのような一般的なアルゴリズムにのみ依存するのではなく、より広い範囲のベンチマークに対してオフラインRLアルゴリズムを評価する緊急の必要性を示している。
また、Pessimistic TD3 (PTD3) と呼ばれるTD3+BCアルゴリズムの拡張を提案し、最先端のオフラインRLアルゴリズムよりも優れていることを示した。
PTD3の行動制約機構は、値関数の悲観主義に依存しており、理論上動機付けられ、実装は比較的簡単である。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Towards Multi-agent Reinforcement Learning based Traffic Signal Control through Spatio-temporal Hypergraphs [19.107744041461316]
交通信号制御システム(TSCS)は、インテリジェントな交通管理に不可欠なものであり、効率的な車両の流れを育んでいる。
従来のアプローチでは、道路網を標準的なグラフに単純化することが多い。
本稿では,インテリジェントトラフィック制御を実現するための新しいTSCSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T02:46:18Z) - A Deep Reinforcement Learning Approach for Adaptive Traffic Routing in
Next-gen Networks [1.1586742546971471]
次世代ネットワークは、トラフィックダイナミクスに基づいたネットワーク構成を自動化し、適応的に調整する必要がある。
交通政策を決定する伝統的な手法は、通常は手作りのプログラミング最適化とアルゴリズムに基づいている。
我々は適応的なトラフィックルーティングのための深層強化学習(DRL)アプローチを開発する。
論文 参考訳(メタデータ) (2024-02-07T01:48:29Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - Artificial Intelligence Empowered Multiple Access for Ultra Reliable and
Low Latency THz Wireless Networks [76.89730672544216]
テラヘルツ(THz)無線ネットワークは、第5世代(B5G)以上の時代を触媒すると予想されている。
いくつかのB5Gアプリケーションの超信頼性と低レイテンシ要求を満たすためには、新しいモビリティ管理アプローチが必要である。
本稿では、インテリジェントなユーザアソシエーションとリソースアロケーションを実現するとともに、フレキシブルで適応的なモビリティ管理を可能にする、全体論的MAC層アプローチを提案する。
論文 参考訳(メタデータ) (2022-08-17T03:00:24Z) - Feudal Multi-Agent Reinforcement Learning with Adaptive Network
Partition for Traffic Signal Control [44.09601435685123]
マルチエージェント強化学習 (MARL) を応用し, 交通信号制御に大きな可能性を示した。
以前の作業では、トラフィックネットワークを複数のリージョンに分割し、封建的構造におけるエージェントのポリシーを学ぶ。
適応型ネットワーク分割を用いた新しい封建的MARL手法を提案する。
論文 参考訳(メタデータ) (2022-05-27T09:02:10Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - Road Network Guided Fine-Grained Urban Traffic Flow Inference [108.64631590347352]
粗いトラフィックからのきめ細かなトラフィックフローの正確な推測は、新たな重要な問題である。
本稿では,道路ネットワークの知識を活かした新しい道路対応交通流磁化器(RATFM)を提案する。
提案手法は,高品質なトラフィックフローマップを作成できる。
論文 参考訳(メタデータ) (2021-09-29T07:51:49Z) - Area-wide traffic signal control based on a deep graph Q-Network (DGQN)
trained in an asynchronous manner [3.655021726150368]
強化学習(RL)アルゴリズムは交通信号研究に広く応用されている。
しかし,大規模交通ネットワークにおける信号機の共同制御にはいくつかの問題がある。
論文 参考訳(メタデータ) (2020-08-05T06:13:58Z) - Multi-Agent Routing Value Iteration Network [88.38796921838203]
疎結合グラフの学習値に基づいてマルチエージェントルーティングを行うことができるグラフニューラルネットワークに基づくモデルを提案する。
最大25ノードのグラフ上で2つのエージェントでトレーニングしたモデルでは,より多くのエージェントやノードを持つ状況に容易に一般化できることが示されている。
論文 参考訳(メタデータ) (2020-07-09T22:16:45Z) - IG-RL: Inductive Graph Reinforcement Learning for Massive-Scale Traffic
Signal Control [4.273991039651846]
適応的な交通信号制御のスケーリングには、状態と行動空間を扱う必要がある。
本稿では,グラフ畳み込みネットワークに基づくインダクティブグラフ強化学習(IG-RL)を紹介する。
我々のモデルは、新しい道路網、交通分布、交通体制に一般化することができる。
論文 参考訳(メタデータ) (2020-03-06T17:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。