Fugu-MT 論文翻訳(概要): Decentralized Deep Reinforcement Learning for Network Level Traffic Signal Control

論文の概要: Decentralized Deep Reinforcement Learning for Network Level Traffic Signal Control

arxiv url: http://arxiv.org/abs/2007.03433v2
Date: Fri, 17 Jul 2020 23:15:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 13:43:58.926781
Title: Decentralized Deep Reinforcement Learning for Network Level Traffic Signal Control
Title（参考訳）: ネットワークレベルトラヒック信号制御のための分散深層強化学習
Authors: Jin Guo
Abstract要約: 本稿では,交通信号制御における高速かつリアルタイムな性能を実現するために,完全分散型深層マルチエージェント強化学習(MARL)アルゴリズムのファミリーを提案する。各交差点は、他の交差点ノードに対してマルコフゲームを行うエージェントとしてモデル化される。実験結果から,S2R2Lはトレーニング過程において,IDQLやS2RLよりも高速に収束し,収束性能が向上していることがわかった。
参考スコア（独自算出の注目度）: 0.8838408191955874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this thesis, I propose a family of fully decentralized deep multi-agent reinforcement learning (MARL) algorithms to achieve high, real-time performance in network-level traffic signal control. In this approach, each intersection is modeled as an agent that plays a Markovian Game against the other intersection nodes in a traffic signal network modeled as an undirected graph, to approach the optimal reduction in delay. Following Partially Observable Markov Decision Processes (POMDPs), there are 3 levels of communication schemes between adjacent learning agents: independent deep Q-leaning (IDQL), shared states reinforcement learning (S2RL) and a shared states & rewards version of S2RL--S2R2L. In these 3 variants of decentralized MARL schemes, individual agent trains its local deep Q network (DQN) separately, enhanced by convergence-guaranteed techniques like double DQN, prioritized experience replay, multi-step bootstrapping, etc. To test the performance of the proposed three MARL algorithms, a SUMO-based simulation platform is developed to mimic the traffic evolution of the real world. Fed with random traffic demand between permitted OD pairs, a 4x4 Manhattan-style grid network is set up as the testbed, two different vehicle arrival rates are generated for model training and testing. The experiment results show that S2R2L has a quicker convergence rate and better convergent performance than IDQL and S2RL in the training process. Moreover, three MARL schemes all reveal exceptional generalization abilities. Their testing results surpass the benchmark Max Pressure (MP) algorithm, under the criteria of average vehicle delay, network-level queue length and fuel consumption rate. Notably, S2R2L has the best testing performance of reducing 34.55% traffic delay and dissipating 10.91% queue length compared with MP.
Abstract（参考訳）: 本稿では,ネットワークレベルのトラヒック信号制御において高いリアルタイム性能を実現するために,完全分散型深層マルチエージェント強化学習(marl)アルゴリズムを提案する。このアプローチでは,各交差点は,非方向グラフとしてモデル化された信号ネットワーク内の他の交差点ノードに対してマルコフゲームを行うエージェントとしてモデル化され,遅延の最適低減にアプローチする。部分観測可能なマルコフ決定プロセス(POMDP)に続いて、隣接する学習エージェントの間には、独立深度Q-leaning(IDQL)、共有状態強化学習(S2RL)、共有状態と報酬バージョン(S2RL-S2R2L)の3つのレベルのコミュニケーションスキームが存在する。これら3つの分散MARLスキームでは、個々のエージェントがローカル深度Qネットワーク(DQN)を個別に訓練し、ダブルDQN、優先された体験リプレイ、マルチステップブートストラップといった収束保証技術によって強化される。提案する3つのmarlアルゴリズムの性能をテストするために,実世界の交通変動を再現する相撲型シミュレーションプラットフォームを開発した。許可されたODペア間のランダムな交通需要により、4x4マンハッタンスタイルのグリッドネットワークがテストベッドとして設定され、モデルトレーニングとテストのために2つの異なる車両到着率が生成される。実験の結果,s2r2lはidqlやs2rlよりも高速に収束し,収束性能が向上した。さらに、3つのMARLスキームは全て例外的な一般化能力を示している。テスト結果は,平均車両遅延,ネットワークレベル待ち行列長,燃料消費率の基準の下で,ベンチマーク最大圧力(MP)アルゴリズムを上回る。特に、S2R2Lは、MPと比較して34.55%の遅延を減らし、10.91%のキュー長を散布するテスト性能が最高である。

関連論文リスト

URB -- Urban Routing Benchmark for RL-equipped Connected Autonomous Vehicles [0.0]
強化学習(RL)は、このような集合的ルーティング戦略の開発を容易にする。 RL搭載コネクテッド・オートマチック・ビークルの都市ルーティングベンチマークについて紹介する。我々の結果は、長大でコストのかかるトレーニングにもかかわらず、最先端のMARLアルゴリズムが人間を上回ることは滅多にないことを示唆している。
論文参考訳（メタデータ） (2025-05-23T10:54:53Z)
Toward Dependency Dynamics in Multi-Agent Reinforcement Learning for Traffic Signal Control [8.312659530314937]
適応的な信号制御のためのデータ駆動型アプローチとして強化学習(RL)が出現する。本稿では,DQN-DPUS(Deep Q-Network)のための動的強化更新戦略を提案する。提案手法は最適探索を犠牲にすることなく収束速度を向上できることを示す。
論文参考訳（メタデータ） (2025-02-23T15:29:12Z)
Integrating Transit Signal Priority into Multi-Agent Reinforcement Learning based Traffic Signal Control [0.0]
本研究では,交通信号優先性(TSP)をマルチエージェント強化学習(MARL)に基づく交通信号制御に統合する。 2つのエージェントは、各交差点毎に、価値分解ネットワーク(VDN)アーキテクチャを用いて集中的に訓練される。訓練されたエージェントは、0.95のv/cでの全体的な交差点遅延に基づいて、調整された作動信号制御よりも若干性能が向上した。
論文参考訳（メタデータ） (2024-11-28T20:09:12Z)
Applying Neural Monte Carlo Tree Search to Unsignalized Multi-intersection Scheduling for Autonomous Vehicles [7.32653612106583]
本稿では,車両のプラトンからの道路空間予約要求と競合する可能性のある道路空間予約要求のシーケンスを,ボードゲームのような一連の問題にマッピングする変換モデルを提案する。我々はNMCTSを用いて、過去のアロケーションの文脈で最適な道路空間割り当てスケジュールを表すソリューションを探索する。提案手法は,全交差点がPNMCTSの制御下にある場合,平均走行時間74.5%,総スループット16%のPNMCTSおよび最先端のRLベースのトラヒックライトコントローラよりも高い性能を示した。
論文参考訳（メタデータ） (2024-10-24T14:37:55Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
SPARQ: Efficient Entanglement Distribution and Routing in Space-Air-Ground Quantum Networks [50.91365514137301]
宇宙空間量子(SPARQ)ネットワークは、シームレスなオンデマンドの絡み合い分布を提供する手段として開発された。 SPARQの複数のグラフ上でディープQネットワーク(DQN)を用いて深層強化学習フレームワークを提案し,訓練した。通信相手間の絡み合いを確立するために,サードパーティの絡み合い分散政策を提案する。
論文参考訳（メタデータ） (2024-09-19T16:31:37Z)
Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。 RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文参考訳（メタデータ） (2023-12-18T18:16:30Z)
Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach [7.23135508361981]
本稿では,完全集中型とMARLの両アプローチの弱点を緩和する,非政治的な深いQ-Network (OPNDQN) アルゴリズムを提案する。 OPNDQNの主な利点の1つはマルチエージェントマルコフ過程の非定常性を緩和することである。平均キュー長,エピソードトレーニング報酬,平均待ち時間の観点から,既存のMARLアプローチよりもOPNDQNの方が優位であることを示す。
論文参考訳（メタデータ） (2023-01-02T12:58:51Z)
Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文参考訳（メタデータ） (2020-10-30T22:06:05Z)
Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文参考訳（メタデータ） (2020-10-18T20:22:05Z)
Area-wide traffic signal control based on a deep graph Q-Network (DGQN) trained in an asynchronous manner [3.655021726150368]
強化学習(RL)アルゴリズムは交通信号研究に広く応用されている。しかし,大規模交通ネットワークにおける信号機の共同制御にはいくつかの問題がある。
論文参考訳（メタデータ） (2020-08-05T06:13:58Z)
Reinforcement Learning Based Vehicle-cell Association Algorithm for Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文参考訳（メタデータ） (2020-01-22T08:51:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。