論文の概要: Independent Reinforcement Learning for Weakly Cooperative Multiagent
Traffic Control Problem
- arxiv url: http://arxiv.org/abs/2104.10917v1
- Date: Thu, 22 Apr 2021 07:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 21:04:30.379369
- Title: Independent Reinforcement Learning for Weakly Cooperative Multiagent
Traffic Control Problem
- Title(参考訳): 弱い協調型マルチエージェント交通制御問題に対する独立強化学習
- Authors: Chengwei Zhang and Shan Jin and Wanli Xue and Xiaofei Xie and
Shengyong Chen and Rong Chen
- Abstract要約: 本研究では,irl(independent reinforcement learning)を用いて複雑な交通協調制御問題を解く。
そこで, 交通制御問題を部分的に観測可能な弱協調交通モデル (PO-WCTM) としてモデル化し, 交差点群全体の交通状況を最適化する。
実験の結果,CIL-DDQNはトラヒック制御問題のほぼすべての性能指標において,他の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 22.733542222812158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The adaptive traffic signal control (ATSC) problem can be modeled as a
multiagent cooperative game among urban intersections, where intersections
cooperate to optimize their common goal. Recently, reinforcement learning (RL)
has achieved marked successes in managing sequential decision making problems,
which motivates us to apply RL in the ASTC problem. Here we use independent
reinforcement learning (IRL) to solve a complex traffic cooperative control
problem in this study. One of the largest challenges of this problem is that
the observation information of intersection is typically partially observable,
which limits the learning performance of IRL algorithms. To this, we model the
traffic control problem as a partially observable weak cooperative traffic
model (PO-WCTM) to optimize the overall traffic situation of a group of
intersections. Different from a traditional IRL task that averages the returns
of all agents in fully cooperative games, the learning goal of each
intersection in PO-WCTM is to reduce the cooperative difficulty of learning,
which is also consistent with the traffic environment hypothesis. We also
propose an IRL algorithm called Cooperative Important Lenient Double DQN
(CIL-DDQN), which extends Double DQN (DDQN) algorithm using two mechanisms: the
forgetful experience mechanism and the lenient weight training mechanism. The
former mechanism decreases the importance of experiences stored in the
experience reply buffer, which deals with the problem of experience failure
caused by the strategy change of other agents. The latter mechanism increases
the weight experiences with high estimation and `leniently' trains the DDQN
neural network, which improves the probability of the selection of cooperative
joint strategies. Experimental results show that CIL-DDQN outperforms other
methods in almost all performance indicators of the traffic control problem.
- Abstract(参考訳): 適応交通信号制御(atsc)問題は、交差点が共通の目標を最適化するために協調する都市交差点間のマルチエージェント協調ゲームとしてモデル化することができる。
近年、強化学習(RL)は逐次意思決定問題を管理する上で大きな成功を収めており、ASTC問題にRLを適用する動機となっている。
ここでは、複雑な交通協調制御問題を解決するために、独立強化学習(IRL)を用いる。
この問題の最大の課題の1つは、交叉の観測情報が部分的に観測可能であり、IRLアルゴリズムの学習性能を制限することである。
そこで我々は,交通制御問題を部分的に観測可能な弱い協調交通モデル (PO-WCTM) としてモデル化し,交差点群全体の交通状況を最適化する。
完全協調ゲームにおける全てのエージェントのリターンを平均化する従来のIRLタスクとは異なり、PO-WCTMにおける各交差点の学習目標は、交通環境仮説とも一致する学習の協調的困難を軽減することである。
また,この2つのメカニズムを用いて,2重dqn (ddqn) アルゴリズムを拡張した協調重要レエントダブルdqn (cil-ddqn) と呼ばれるirlアルゴリズムを提案する。
前者のメカニズムは、他のエージェントの戦略変更によって引き起こされる経験失敗の問題に対処するexperience reply bufferに格納された経験の重要性を減少させる。
後者のメカニズムは、高い推定でウェイトエクスペリエンスを高め、DDQNニューラルネットワークを「高い」トレーニングすることで、協調的な共同戦略の選択の確率を向上させる。
実験の結果,CIL-DDQNはトラヒック制御問題のほぼすべての性能指標において,他の手法よりも優れていた。
関連論文リスト
- IntersectionZoo: Eco-driving for Benchmarking Multi-Agent Contextual Reinforcement Learning [4.80862277413422]
マルチエージェント強化学習のための総合ベンチマークスイートIntersectionZooを提案する。
IntersectionZooを実世界のアプリケーションに接地することで、実世界の問題の特徴を自然に捉えることができる。
IntersectionZooは、米国の主要10都市の16,334の信号化交差点のデータインフォームドシミュレーションに基づいて構築されている。
論文 参考訳(メタデータ) (2024-10-19T21:34:24Z) - Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [79.088116316919]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。
本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文 参考訳(メタデータ) (2024-09-19T14:36:00Z) - Combat Urban Congestion via Collaboration: Heterogeneous GNN-based MARL
for Coordinated Platooning and Traffic Signal Control [16.762073265205565]
本稿では、異種グラフ多エージェント強化学習と交通理論に基づいて、これらの課題に対処するための革新的な解決策を提案する。
提案手法は,1)小隊と信号制御を個別の強化学習エージェントとして設計し,各エージェント間のシームレスな情報交換を容易にするため,多エージェント強化学習にグラフニューラルネットワークを組み込んだ協調設計を行う。
論文 参考訳(メタデータ) (2023-10-17T02:46:04Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - A Novel Multi-Agent Deep RL Approach for Traffic Signal Control [13.927155702352131]
都市ネットワークにおける複数の交通信号制御のための Friend-Deep Q-network (Friend-DQN) アプローチを提案する。
特に、複数のエージェント間の協調は状態-作用空間を減少させ、収束を加速させる。
論文 参考訳(メタデータ) (2023-06-05T08:20:37Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach [7.23135508361981]
本稿では,完全集中型とMARLの両アプローチの弱点を緩和する,非政治的な深いQ-Network (OPNDQN) アルゴリズムを提案する。
OPNDQNの主な利点の1つはマルチエージェントマルコフ過程の非定常性を緩和することである。
平均キュー長,エピソードトレーニング報酬,平均待ち時間の観点から,既存のMARLアプローチよりもOPNDQNの方が優位であることを示す。
論文 参考訳(メタデータ) (2023-01-02T12:58:51Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - Multi-intersection Traffic Optimisation: A Benchmark Dataset and a
Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。
問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。
エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T03:55:39Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Area-wide traffic signal control based on a deep graph Q-Network (DGQN)
trained in an asynchronous manner [3.655021726150368]
強化学習(RL)アルゴリズムは交通信号研究に広く応用されている。
しかし,大規模交通ネットワークにおける信号機の共同制御にはいくつかの問題がある。
論文 参考訳(メタデータ) (2020-08-05T06:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。