論文の概要: Cooperative Reinforcement Learning on Traffic Signal Control
- arxiv url: http://arxiv.org/abs/2205.11291v1
- Date: Mon, 23 May 2022 13:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:22:27.100627
- Title: Cooperative Reinforcement Learning on Traffic Signal Control
- Title(参考訳): 交通信号制御における協調強化学習
- Authors: Chi-Chun Chao, Jun-Wei Hsieh, Bor-Shiun Wang
- Abstract要約: 交通信号の制御は、道路交差点での車両の移動を調整することで、全体の走行時間を最小化することを目的とした、現実的な課題である。
既存の信号制御システムは、過度に単純化された情報とルールベースの方法に大きく依存している。
本稿では,交通信号制御最適化のための複数の報酬項をより正確に推定するために,年齢遅延重み付き協調型多目的アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 3.759936323189418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic signal control is a challenging real-world problem aiming to minimize
overall travel time by coordinating vehicle movements at road intersections.
Existing traffic signal control systems in use still rely heavily on
oversimplified information and rule-based methods. Specifically, the
periodicity of green/red light alternations can be considered as a prior for
better planning of each agent in policy optimization. To better learn such
adaptive and predictive priors, traditional
RL-based methods can only return a fixed length from predefined action pool
with only local agents. If there is no cooperation between these agents, some
agents often make conflicts to other agents and thus decrease the whole
throughput. This paper proposes a cooperative, multi-objective architecture
with age-decaying weights to better estimate multiple reward terms for traffic
signal control optimization, which termed COoperative Multi-Objective
Multi-Agent Deep Deterministic Policy Gradient (COMMA-DDPG). Two types of
agents running to maximize rewards of different goals - one for local traffic
optimization at each intersection and the other for global traffic waiting time
optimization. The global agent is used to guide the local agents as a means for
aiding faster learning but not used in the inference phase. We also provide an
analysis of solution existence together with convergence proof for the proposed
RL optimization. Evaluation is performed using real-world traffic data
collected using traffic cameras from an Asian country. Our method can
effectively reduce the total delayed time by 60\%. Results demonstrate its
superiority when compared to SoTA methods.
- Abstract(参考訳): 交通信号制御は、道路交差点での車両移動を調整し、全体の走行時間を最小化することを目的とした、現実的な課題である。
既存の交通信号制御システムは、過度に単純化された情報と規則に基づく方法に大きく依存している。
特に、緑/赤光交替の周期性は、政策最適化における各エージェントのより優れた計画のための事前であると考えることができる。
このような適応的で予測的な事前の学習をより良くするために、従来のRLベースの手法は、ローカルエージェントのみで定義されたアクションプールからのみ固定長を返すことができる。
これらのエージェント間の協力がなければ、他のエージェントと競合し、スループットを低下させるエージェントもある。
本稿では,交通信号制御最適化のための複数の報酬項をより正確に推定する,年齢遅延重み付き協調型多目的アーキテクチャを提案し,その手法をCOMMA-DDPG(Comoperative Multi-Objective Multi-Agent Deep Deterministic Policy Gradient)と呼ぶ。
各交差点でのローカルトラフィック最適化と、グローバルトラフィック待ち時間最適化の2つのタイプのエージェントが、異なる目標の報酬を最大化するために実行されている。
グローバルエージェントは、推論フェーズでは使用せず、より高速な学習を支援する手段として、ローカルエージェントを導くために使用される。
また,提案するrl最適化のための収束証明とともに,解の存在の解析も行う。
アジア諸国の交通カメラを用いて収集した実世界の交通データを用いて評価を行う。
本手法は遅延時間全体の60\%を効果的に削減できる。
その結果,SoTA法と比較すると,その優位性を示した。
関連論文リスト
- Joint Optimization of Traffic Signal Control and Vehicle Routing in
Signalized Road Networks using Multi-Agent Deep Reinforcement Learning [19.024527400852968]
信号化道路網における交通信号制御と車両ルーティングの協調最適化手法を提案する。
マルチエージェントディープ強化学習(MADRL)を用いた信号タイミングと経路選択を同時に制御することでネットワーク性能を向上させることを目的とする。
本研究は,MADRLを用いて信号制御と車両経路の最適結合ポリシーを導出する最初の試みである。
論文 参考訳(メタデータ) (2023-10-16T22:10:47Z) - Cooperative Multi-Objective Reinforcement Learning for Traffic Signal
Control and Carbon Emission Reduction [3.3454373538792552]
本稿では,多目的多元的深層決定主義政策グラディエントという協調型多目的アーキテクチャを提案する。
MOMA-DDPGは、年齢遅延重みを用いた信号制御最適化のための複数の報酬項を推定する。
以上の結果から,MOMA-DDPGの有効性が示された。
論文 参考訳(メタデータ) (2023-06-16T07:37:05Z) - DenseLight: Efficient Control for Large-scale Traffic Signals with Dense
Feedback [109.84667902348498]
交通信号制御(TSC)は、道路網における車両の平均走行時間を短縮することを目的としている。
従来のTSC手法は、深い強化学習を利用して制御ポリシーを探索する。
DenseLightは、不偏報酬関数を用いてポリシーの有効性をフィードバックする新しいRTLベースのTSC手法である。
論文 参考訳(メタデータ) (2023-06-13T05:58:57Z) - Reinforcement Learning Approaches for Traffic Signal Control under
Missing Data [5.896742981602458]
現実世界の都市では、センサーの欠如により交通状態の観察が欠如することがある。
本稿では, 適応制御を実現するために, トラフィック状態をインプットし, 適応制御とRLエージェントの訓練を可能にするために, 状態と報酬の両方をインプットする2つの方法を提案する。
論文 参考訳(メタデータ) (2023-04-21T03:26:33Z) - SocialLight: Distributed Cooperation Learning towards Network-Wide
Traffic Signal Control [7.387226437589183]
SocialLightは交通信号制御のための新しいマルチエージェント強化学習手法である。
地元におけるエージェントの個人的限界貢献を推定することにより、協力的な交通規制政策を学習する。
我々は,2つの交通シミュレータの標準ベンチマークにおける最先端の交通信号制御手法に対して,トレーニングネットワークをベンチマークした。
論文 参考訳(メタデータ) (2023-04-20T12:41:25Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Decentralized Cooperative Lane Changing at Freeway Weaving Areas Using
Multi-Agent Deep Reinforcement Learning [1.6752182911522522]
マージやウィービングエリアなどの高速道路ボトルネックにおける渋滞時の車線変化は、さらに道路の容量を減少させる。
ディープ・リテンション・ラーニング(RL)とコネクテッド・アンド・オートマチック・カー・テクノロジーの出現は、協調車線変更による高速道路のボトルネックにおけるモビリティとエネルギー効率を改善するための解決策となる。
本研究では,多エージェント深部RLパラダイムを用いた分散協調車線切替制御器を開発した。
本研究では, 交通量, 車両速度, 車両当たりの停止数, 燃料効率, 排出エミッションの観点から, 多エージェント深部RLによる協調車線変更は, 運転者にとって優れた性能を示すことを示した。
論文 参考訳(メタデータ) (2021-10-05T18:29:13Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Reinforcement Learning Based Vehicle-cell Association Algorithm for
Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。
まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。
提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文 参考訳(メタデータ) (2020-01-22T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。