論文の概要: Decentralized Deep Reinforcement Learning for Network Level Traffic
Signal Control
- arxiv url: http://arxiv.org/abs/2007.03433v2
- Date: Fri, 17 Jul 2020 23:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:43:58.926781
- Title: Decentralized Deep Reinforcement Learning for Network Level Traffic
Signal Control
- Title(参考訳): ネットワークレベルトラヒック信号制御のための分散深層強化学習
- Authors: Jin Guo
- Abstract要約: 本稿では,交通信号制御における高速かつリアルタイムな性能を実現するために,完全分散型深層マルチエージェント強化学習(MARL)アルゴリズムのファミリーを提案する。
各交差点は、他の交差点ノードに対してマルコフゲームを行うエージェントとしてモデル化される。
実験結果から,S2R2Lはトレーニング過程において,IDQLやS2RLよりも高速に収束し,収束性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 0.8838408191955874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this thesis, I propose a family of fully decentralized deep multi-agent
reinforcement learning (MARL) algorithms to achieve high, real-time performance
in network-level traffic signal control. In this approach, each intersection is
modeled as an agent that plays a Markovian Game against the other intersection
nodes in a traffic signal network modeled as an undirected graph, to approach
the optimal reduction in delay. Following Partially Observable Markov Decision
Processes (POMDPs), there are 3 levels of communication schemes between
adjacent learning agents: independent deep Q-leaning (IDQL), shared states
reinforcement learning (S2RL) and a shared states & rewards version of
S2RL--S2R2L. In these 3 variants of decentralized MARL schemes, individual
agent trains its local deep Q network (DQN) separately, enhanced by
convergence-guaranteed techniques like double DQN, prioritized experience
replay, multi-step bootstrapping, etc. To test the performance of the proposed
three MARL algorithms, a SUMO-based simulation platform is developed to mimic
the traffic evolution of the real world. Fed with random traffic demand between
permitted OD pairs, a 4x4 Manhattan-style grid network is set up as the
testbed, two different vehicle arrival rates are generated for model training
and testing. The experiment results show that S2R2L has a quicker convergence
rate and better convergent performance than IDQL and S2RL in the training
process. Moreover, three MARL schemes all reveal exceptional generalization
abilities. Their testing results surpass the benchmark Max Pressure (MP)
algorithm, under the criteria of average vehicle delay, network-level queue
length and fuel consumption rate. Notably, S2R2L has the best testing
performance of reducing 34.55% traffic delay and dissipating 10.91% queue
length compared with MP.
- Abstract(参考訳): 本稿では,ネットワークレベルのトラヒック信号制御において高いリアルタイム性能を実現するために,完全分散型深層マルチエージェント強化学習(marl)アルゴリズムを提案する。
このアプローチでは,各交差点は,非方向グラフとしてモデル化された信号ネットワーク内の他の交差点ノードに対してマルコフゲームを行うエージェントとしてモデル化され,遅延の最適低減にアプローチする。
部分観測可能なマルコフ決定プロセス(POMDP)に続いて、隣接する学習エージェントの間には、独立深度Q-leaning(IDQL)、共有状態強化学習(S2RL)、共有状態と報酬バージョン(S2RL-S2R2L)の3つのレベルのコミュニケーションスキームが存在する。
これら3つの分散MARLスキームでは、個々のエージェントがローカル深度Qネットワーク(DQN)を個別に訓練し、ダブルDQN、優先された体験リプレイ、マルチステップブートストラップといった収束保証技術によって強化される。
提案する3つのmarlアルゴリズムの性能をテストするために,実世界の交通変動を再現する相撲型シミュレーションプラットフォームを開発した。
許可されたODペア間のランダムな交通需要により、4x4マンハッタンスタイルのグリッドネットワークがテストベッドとして設定され、モデルトレーニングとテストのために2つの異なる車両到着率が生成される。
実験の結果,s2r2lはidqlやs2rlよりも高速に収束し,収束性能が向上した。
さらに、3つのMARLスキームは全て例外的な一般化能力を示している。
テスト結果は,平均車両遅延,ネットワークレベル待ち行列長,燃料消費率の基準の下で,ベンチマーク最大圧力(MP)アルゴリズムを上回る。
特に、S2R2Lは、MPと比較して34.55%の遅延を減らし、10.91%のキュー長を散布するテスト性能が最高である。
関連論文リスト
- Applying Neural Monte Carlo Tree Search to Unsignalized Multi-intersection Scheduling for Autonomous Vehicles [7.32653612106583]
本稿では,車両のプラトンからの道路空間予約要求と競合する可能性のある道路空間予約要求のシーケンスを,ボードゲームのような一連の問題にマッピングする変換モデルを提案する。
我々はNMCTSを用いて、過去のアロケーションの文脈で最適な道路空間割り当てスケジュールを表すソリューションを探索する。
提案手法は,全交差点がPNMCTSの制御下にある場合,平均走行時間74.5%,総スループット16%のPNMCTSおよび最先端のRLベースのトラヒックライトコントローラよりも高い性能を示した。
論文 参考訳(メタデータ) (2024-10-24T14:37:55Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - SPARQ: Efficient Entanglement Distribution and Routing in Space-Air-Ground Quantum Networks [50.91365514137301]
宇宙空間量子(SPARQ)ネットワークは、シームレスなオンデマンドの絡み合い分布を提供する手段として開発された。
SPARQの複数のグラフ上でディープQネットワーク(DQN)を用いて深層強化学習フレームワークを提案し,訓練した。
通信相手間の絡み合いを確立するために,サードパーティの絡み合い分散政策を提案する。
論文 参考訳(メタデータ) (2024-09-19T16:31:37Z) - Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach [7.23135508361981]
本稿では,完全集中型とMARLの両アプローチの弱点を緩和する,非政治的な深いQ-Network (OPNDQN) アルゴリズムを提案する。
OPNDQNの主な利点の1つはマルチエージェントマルコフ過程の非定常性を緩和することである。
平均キュー長,エピソードトレーニング報酬,平均待ち時間の観点から,既存のMARLアプローチよりもOPNDQNの方が優位であることを示す。
論文 参考訳(メタデータ) (2023-01-02T12:58:51Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z) - Area-wide traffic signal control based on a deep graph Q-Network (DGQN)
trained in an asynchronous manner [3.655021726150368]
強化学習(RL)アルゴリズムは交通信号研究に広く応用されている。
しかし,大規模交通ネットワークにおける信号機の共同制御にはいくつかの問題がある。
論文 参考訳(メタデータ) (2020-08-05T06:13:58Z) - Reinforcement Learning Based Vehicle-cell Association Algorithm for
Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。
まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。
提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文 参考訳(メタデータ) (2020-01-22T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。