論文の概要: Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach
- arxiv url: http://arxiv.org/abs/2301.00637v1
- Date: Mon, 2 Jan 2023 12:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:25:07.215312
- Title: Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach
- Title(参考訳): nash深部qネットワークによる大規模交通信号制御
- Authors: Yuli.Zhang, Shangbo.Wang, Ruiyuan.Jiang
- Abstract要約: 本稿では,完全集中型とMARLの両アプローチの弱点を緩和する,非政治的な深いQ-Network (OPNDQN) アルゴリズムを提案する。
OPNDQNの主な利点の1つはマルチエージェントマルコフ過程の非定常性を緩和することである。
平均キュー長,エピソードトレーニング報酬,平均待ち時間の観点から,既存のMARLアプローチよりもOPNDQNの方が優位であることを示す。
- 参考スコア(独自算出の注目度): 7.23135508361981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is currently one of the most commonly used
techniques for traffic signal control (TSC), which can adaptively adjusted
traffic signal phase and duration according to real-time traffic data. However,
a fully centralized RL approach is beset with difficulties in a multi-network
scenario because of exponential growth in state-action space with increasing
intersections. Multi-agent reinforcement learning (MARL) can overcome the
high-dimension problem by employing the global control of each local RL agent,
but it also brings new challenges, such as the failure of convergence caused by
the non-stationary Markov Decision Process (MDP). In this paper, we introduce
an off-policy nash deep Q-Network (OPNDQN) algorithm, which mitigates the
weakness of both fully centralized and MARL approaches. The OPNDQN algorithm
solves the problem that traditional algorithms cannot be used in large
state-action space traffic models by utilizing a fictitious game approach at
each iteration to find the nash equilibrium among neighboring intersections,
from which no intersection has incentive to unilaterally deviate. One of main
advantages of OPNDQN is to mitigate the non-stationarity of multi-agent Markov
process because it considers the mutual influence among neighboring
intersections by sharing their actions. On the other hand, for training a large
traffic network, the convergence rate of OPNDQN is higher than that of existing
MARL approaches because it does not incorporate all state information of each
agent. We conduct an extensive experiments by using Simulation of Urban
MObility simulator (SUMO), and show the dominant superiority of OPNDQN over
several existing MARL approaches in terms of average queue length, episode
training reward and average waiting time.
- Abstract(参考訳): 強化学習(rl)は現在、交通信号制御(tsc)の最も一般的な手法の1つであり、リアルタイムの交通データに応じて信号位相と持続時間を適応的に調整することができる。
しかしながら、完全に中央集権的なRLアプローチは、交叉の増加を伴う状態-作用空間の指数的な増加のため、マルチネットワークシナリオにおいて困難を伴う。
マルチエージェント強化学習(MARL)は,各ローカルRLエージェントのグローバルコントロールを利用することで,高次元問題を克服することができるが,非定常マルコフ決定プロセス(MDP)による収束の失敗など,新たな課題も生じている。
本稿では,完全集中型アプローチとMARLアプローチの両方の弱点を緩和する,オフポリチナッシュ深層Q-Network(OPNDQN)アルゴリズムを提案する。
OPNDQNアルゴリズムは、隣接する交差点間のナッシュ均衡を見つけるために、各イテレーションにおける架空のゲームアプローチを利用することで、従来のアルゴリズムが大きな状態-行動空間の交通モデルでは利用できないという問題を解決する。
OPNDQNの主な利点の1つは、マルチエージェントマルコフ過程の非定常性を緩和することである。
一方,大規模な交通ネットワークをトレーニングする場合,OPNDQNの収束率は,各エージェントのすべての状態情報を組み込んでいないため,既存のMARLアプローチよりも高い。
本研究では,都市モビリティシミュレータ(sumo)のシミュレーションを用いて広範囲な実験を行い,平均待ち時間,エピソード訓練報酬,平均待ち時間という観点から,既存のmarlアプローチよりもopndqnが優勢であることを示す。
関連論文リスト
- Improving Traffic Flow Predictions with SGCN-LSTM: A Hybrid Model for Spatial and Temporal Dependencies [55.2480439325792]
本稿ではSGCN-LSTM(Signal-Enhanced Graph Convolutional Network Long Short Term Memory)モデルを提案する。
PEMS-BAYロードネットワークトラフィックデータセットの実験は、SGCN-LSTMモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-11-01T00:37:00Z) - Adaptive Hierarchical SpatioTemporal Network for Traffic Forecasting [70.66710698485745]
本稿では,AHSTN(Adaptive Hierarchical SpatioTemporal Network)を提案する。
AHSTNは空間階層を利用し、マルチスケール空間相関をモデル化する。
2つの実世界のデータセットの実験により、AHSTNはいくつかの強いベースラインよりも優れたパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T14:50:27Z) - A Novel Multi-Agent Deep RL Approach for Traffic Signal Control [13.927155702352131]
都市ネットワークにおける複数の交通信号制御のための Friend-Deep Q-network (Friend-DQN) アプローチを提案する。
特に、複数のエージェント間の協調は状態-作用空間を減少させ、収束を加速させる。
論文 参考訳(メタデータ) (2023-06-05T08:20:37Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Decentralized Federated Reinforcement Learning for User-Centric Dynamic
TFDD Control [37.54493447920386]
非対称かつ不均一なトラフィック要求を満たすための学習に基づく動的時間周波数分割二重化(D-TFDD)方式を提案する。
分散化された部分観測可能なマルコフ決定過程(Dec-POMDP)として問題を定式化する。
本稿では,グローバルリソースを分散的に最適化するために,Wolpertinger Deep Deterministic Policy gradient (FWDDPG)アルゴリズムという,連合強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-04T07:39:21Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - A Deep Reinforcement Learning Approach for Traffic Signal Control
Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。
本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文 参考訳(メタデータ) (2021-07-13T14:11:04Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Area-wide traffic signal control based on a deep graph Q-Network (DGQN)
trained in an asynchronous manner [3.655021726150368]
強化学習(RL)アルゴリズムは交通信号研究に広く応用されている。
しかし,大規模交通ネットワークにおける信号機の共同制御にはいくつかの問題がある。
論文 参考訳(メタデータ) (2020-08-05T06:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。