論文の概要: Decentralized Deep Reinforcement Learning for Network Level Traffic
Signal Control
- arxiv url: http://arxiv.org/abs/2007.03433v2
- Date: Fri, 17 Jul 2020 23:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:43:58.926781
- Title: Decentralized Deep Reinforcement Learning for Network Level Traffic
Signal Control
- Title(参考訳): ネットワークレベルトラヒック信号制御のための分散深層強化学習
- Authors: Jin Guo
- Abstract要約: 本稿では,交通信号制御における高速かつリアルタイムな性能を実現するために,完全分散型深層マルチエージェント強化学習(MARL)アルゴリズムのファミリーを提案する。
各交差点は、他の交差点ノードに対してマルコフゲームを行うエージェントとしてモデル化される。
実験結果から,S2R2Lはトレーニング過程において,IDQLやS2RLよりも高速に収束し,収束性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 0.8838408191955874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this thesis, I propose a family of fully decentralized deep multi-agent
reinforcement learning (MARL) algorithms to achieve high, real-time performance
in network-level traffic signal control. In this approach, each intersection is
modeled as an agent that plays a Markovian Game against the other intersection
nodes in a traffic signal network modeled as an undirected graph, to approach
the optimal reduction in delay. Following Partially Observable Markov Decision
Processes (POMDPs), there are 3 levels of communication schemes between
adjacent learning agents: independent deep Q-leaning (IDQL), shared states
reinforcement learning (S2RL) and a shared states & rewards version of
S2RL--S2R2L. In these 3 variants of decentralized MARL schemes, individual
agent trains its local deep Q network (DQN) separately, enhanced by
convergence-guaranteed techniques like double DQN, prioritized experience
replay, multi-step bootstrapping, etc. To test the performance of the proposed
three MARL algorithms, a SUMO-based simulation platform is developed to mimic
the traffic evolution of the real world. Fed with random traffic demand between
permitted OD pairs, a 4x4 Manhattan-style grid network is set up as the
testbed, two different vehicle arrival rates are generated for model training
and testing. The experiment results show that S2R2L has a quicker convergence
rate and better convergent performance than IDQL and S2RL in the training
process. Moreover, three MARL schemes all reveal exceptional generalization
abilities. Their testing results surpass the benchmark Max Pressure (MP)
algorithm, under the criteria of average vehicle delay, network-level queue
length and fuel consumption rate. Notably, S2R2L has the best testing
performance of reducing 34.55% traffic delay and dissipating 10.91% queue
length compared with MP.
- Abstract(参考訳): 本稿では,ネットワークレベルのトラヒック信号制御において高いリアルタイム性能を実現するために,完全分散型深層マルチエージェント強化学習(marl)アルゴリズムを提案する。
このアプローチでは,各交差点は,非方向グラフとしてモデル化された信号ネットワーク内の他の交差点ノードに対してマルコフゲームを行うエージェントとしてモデル化され,遅延の最適低減にアプローチする。
部分観測可能なマルコフ決定プロセス(POMDP)に続いて、隣接する学習エージェントの間には、独立深度Q-leaning(IDQL)、共有状態強化学習(S2RL)、共有状態と報酬バージョン(S2RL-S2R2L)の3つのレベルのコミュニケーションスキームが存在する。
これら3つの分散MARLスキームでは、個々のエージェントがローカル深度Qネットワーク(DQN)を個別に訓練し、ダブルDQN、優先された体験リプレイ、マルチステップブートストラップといった収束保証技術によって強化される。
提案する3つのmarlアルゴリズムの性能をテストするために,実世界の交通変動を再現する相撲型シミュレーションプラットフォームを開発した。
許可されたODペア間のランダムな交通需要により、4x4マンハッタンスタイルのグリッドネットワークがテストベッドとして設定され、モデルトレーニングとテストのために2つの異なる車両到着率が生成される。
実験の結果,s2r2lはidqlやs2rlよりも高速に収束し,収束性能が向上した。
さらに、3つのMARLスキームは全て例外的な一般化能力を示している。
テスト結果は,平均車両遅延,ネットワークレベル待ち行列長,燃料消費率の基準の下で,ベンチマーク最大圧力(MP)アルゴリズムを上回る。
特に、S2R2Lは、MPと比較して34.55%の遅延を減らし、10.91%のキュー長を散布するテスト性能が最高である。
関連論文リスト
- Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach [7.23135508361981]
本稿では,完全集中型とMARLの両アプローチの弱点を緩和する,非政治的な深いQ-Network (OPNDQN) アルゴリズムを提案する。
OPNDQNの主な利点の1つはマルチエージェントマルコフ過程の非定常性を緩和することである。
平均キュー長,エピソードトレーニング報酬,平均待ち時間の観点から,既存のMARLアプローチよりもOPNDQNの方が優位であることを示す。
論文 参考訳(メタデータ) (2023-01-02T12:58:51Z) - COOR-PLT: A hierarchical control model for coordinating adaptive
platoons of connected and autonomous vehicles at signal-free intersections
based on deep reinforcement learning [0.0]
本研究では,信号のない交差点で適応型CAVプラトンを協調するための階層制御モデルであるCOOR-PLTを提案する。
都市移動シミュレータ(SUMO)のモデル検証と検証を行った。
論文 参考訳(メタデータ) (2022-07-01T02:22:31Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - A Comparative Study of Algorithms for Intelligent Traffic Signal Control [0.0]
待ち時間と待ち時間を最小限に抑えるために,交通信号制御を効果的に最適化する手法が提案されている。
これらの手法は、インドのバンガロールの現実世界の交差点のシミュレーションでテストされた。
論文 参考訳(メタデータ) (2021-09-02T13:26:49Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z) - NOMA in UAV-aided cellular offloading: A machine learning approach [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T17:38:48Z) - Area-wide traffic signal control based on a deep graph Q-Network (DGQN)
trained in an asynchronous manner [3.655021726150368]
強化学習(RL)アルゴリズムは交通信号研究に広く応用されている。
しかし,大規模交通ネットワークにおける信号機の共同制御にはいくつかの問題がある。
論文 参考訳(メタデータ) (2020-08-05T06:13:58Z) - Reinforcement Learning Based Vehicle-cell Association Algorithm for
Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。
まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。
提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文 参考訳(メタデータ) (2020-01-22T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。