論文の概要: Assessment of Reward Functions in Reinforcement Learning for Multi-Modal
Urban Traffic Control under Real-World limitations
- arxiv url: http://arxiv.org/abs/2010.08819v1
- Date: Sat, 17 Oct 2020 16:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-06 12:23:07.693513
- Title: Assessment of Reward Functions in Reinforcement Learning for Multi-Modal
Urban Traffic Control under Real-World limitations
- Title(参考訳): 実世界の制約下におけるマルチモーダル都市交通制御のための強化学習におけるリワード機能の評価
- Authors: Alvaro Cabrejas-Egea, Colm Connaughton
- Abstract要約: 本稿では,歩行者と車両の交差点を制御するために,30種類の強化学習報酬関数を頑健に評価する。
我々は、マンチェスター大都市圏における実際の交差点の需要、センサー、グリーンタイム、その他の運用上の制約について、キャリブレーションされたモデルを使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning is proving a successful tool that can manage urban
intersections with a fraction of the effort required to curate traditional
traffic controllers. However, literature on the introduction and control of
pedestrians to such intersections is scarce. Furthermore, it is unclear what
traffic state variables should be used as reward to obtain the best agent
performance. This paper robustly evaluates 30 different Reinforcement Learning
reward functions for controlling intersections serving pedestrians and vehicles
covering the main traffic state variables available via modern vision-based
sensors. Some rewards proposed in previous literature solely for vehicular
traffic are extended to pedestrians while new ones are introduced. We use a
calibrated model in terms of demand, sensors, green times and other operational
constraints of a real intersection in Greater Manchester, UK. The assessed
rewards can be classified in 5 groups depending on the magnitudes used: queues,
waiting time, delay, average speed and throughput in the junction. The
performance of different agents, in terms of waiting time, is compared across
different demand levels, from normal operation to saturation of traditional
adaptive controllers. We find that those rewards maximising the speed of the
network obtain the lowest waiting time for vehicles and pedestrians
simultaneously, closely followed by queue minimisation, demonstrating better
performance than other previously proposed methods.
- Abstract(参考訳): 強化学習は、従来の交通制御装置のキュレーションに必要な労力のごく一部で、都市の交差点を管理できる成功ツールである。
しかし、このような交差点への歩行者の導入・制御に関する文献は少ない。
さらに、最高のエージェントパフォーマンスを得るために、どのトラフィック状態変数を報酬として使うべきかは不明だ。
本稿では,歩行者と車両の交差点を制御するための30種類の強化学習報酬関数を,現代の視覚センサで利用可能な主要交通状況変数を網羅的に評価する。
以前の文献では車内交通のみの報酬が歩行者に拡大され、新しい報酬が導入された。
需要、センサー、グリーンタイム、およびイギリスのマンチェスター大都市圏の実際の交差点の運用上の制約の観点から、校正されたモデルを使用します。
評価された報酬は、キュー、待ち時間、遅延、平均速度、およびジャンクションのスループットの5つのグループに分類することができる。
待ち時間の観点から異なるエージェントのパフォーマンスは、通常の操作から従来の適応コントローラの飽和まで、さまざまな需要レベルで比較される。
ネットワークの速度を最大化する報奨は、車両と歩行者の待ち時間を同時に最大化し、待ち行列の最小化に近づき、他の提案手法よりも優れた性能を示す。
関連論文リスト
- DenseLight: Efficient Control for Large-scale Traffic Signals with Dense
Feedback [109.84667902348498]
交通信号制御(TSC)は、道路網における車両の平均走行時間を短縮することを目的としている。
従来のTSC手法は、深い強化学習を利用して制御ポリシーを探索する。
DenseLightは、不偏報酬関数を用いてポリシーの有効性をフィードバックする新しいRTLベースのTSC手法である。
論文 参考訳(メタデータ) (2023-06-13T05:58:57Z) - SocialLight: Distributed Cooperation Learning towards Network-Wide
Traffic Signal Control [7.387226437589183]
SocialLightは交通信号制御のための新しいマルチエージェント強化学習手法である。
地元におけるエージェントの個人的限界貢献を推定することにより、協力的な交通規制政策を学習する。
我々は,2つの交通シミュレータの標準ベンチマークにおける最先端の交通信号制御手法に対して,トレーニングネットワークをベンチマークした。
論文 参考訳(メタデータ) (2023-04-20T12:41:25Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - Pedestrian Stop and Go Forecasting with Hybrid Feature Fusion [87.77727495366702]
歩行者の立ち止まりと予測の新たな課題を紹介します。
都市交通における歩行者の立ち寄り行動を明示的に研究するためのベンチマークであるTransをリリースする。
歩行者の歩行動作に注釈を付けたいくつかの既存のデータセットから構築し、さまざまなシナリオや行動を実現する。
論文 参考訳(メタデータ) (2022-03-04T18:39:31Z) - Pedestrian Detection: Domain Generalization, CNNs, Transformers and
Beyond [82.37430109152383]
その結果、現在の歩行者検知器は、クロスデータセット評価において、たとえ小さな領域シフトであっても処理が不十分であることがわかった。
限定的な一般化は、その方法と現在のデータ源の2つの主要な要因に帰着する。
本稿では、一般化を改善する進歩的な微調整戦略を提案する。
論文 参考訳(メタデータ) (2022-01-10T06:00:26Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - Assessment of Reward Functions for Reinforcement Learning Traffic Signal
Control under Real-World Limitations [0.0]
本稿では,マンチェスター大都市圏のジャンクションシミュレーションにおいて,異なる報酬関数を用いたエージェントの性能を比較した。
速度の最大化により、すべての需要レベルにおいて平均待ち時間が最低となり、文献で紹介された他の報酬よりも性能が著しく向上したことが判明した。
論文 参考訳(メタデータ) (2020-08-26T15:47:15Z) - Optimizing Traffic Lights with Multi-agent Deep Reinforcement Learning
and V2X communication [5.40232936994133]
本稿では,多エージェント深部強化学習とV2X通信を用いた交通信号の持続時間を最適化するシステムについて考察する。
本システムは,複数エージェントに対する独立報酬と共有報酬を分析し,信号の時間制御を目的とする。
論文 参考訳(メタデータ) (2020-02-23T07:43:12Z) - Decoding pedestrian and automated vehicle interactions using immersive
virtual reality and interpretable deep learning [6.982614422666432]
本研究では,自動走行車の存在による影響が期待される都市動態の重要な要素として,歩行者の横断行動について検討する。
歩行者の待ち時間はデータ駆動のCox Proportional Hazards(CPH)モデルを用いて分析される。
その結果,道路上の自動走行車の存在,広い車線幅,道路上の高密度化,観光距離の制限,歩行習慣の欠如が待ち時間の主な要因であることが示唆された。
論文 参考訳(メタデータ) (2020-02-18T01:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。