Fugu-MT 論文翻訳(概要): Toward Dependency Dynamics in Multi-Agent Reinforcement Learning for Traffic Signal Control

論文の概要: Toward Dependency Dynamics in Multi-Agent Reinforcement Learning for Traffic Signal Control

arxiv url: http://arxiv.org/abs/2502.16608v1
Date: Sun, 23 Feb 2025 15:29:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.257262
Title: Toward Dependency Dynamics in Multi-Agent Reinforcement Learning for Traffic Signal Control
Title（参考訳）: 交通信号制御のためのマルチエージェント強化学習における依存ダイナミクスに向けて
Authors: Yuli Zhang, Shangbo Wang, Dongyao Jia, Pengfei Fan, Ruiyuan Jiang, Hankang Gu, Andy H. F. Chow,
Abstract要約: 適応的な信号制御のためのデータ駆動型アプローチとして強化学習(RL)が出現する。本稿では,DQN-DPUS(Deep Q-Network)のための動的強化更新戦略を提案する。提案手法は最適探索を犠牲にすることなく収束速度を向上できることを示す。
参考スコア（独自算出の注目度）: 8.312659530314937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) emerges as a promising data-driven approach for adaptive traffic signal control (ATSC) in complex urban traffic networks, with deep neural networks substantially augmenting its learning capabilities. However, centralized RL becomes impractical for ATSC involving multiple agents due to the exceedingly high dimensionality of the joint action space. Multi-agent RL (MARL) mitigates this scalability issue by decentralizing control to local RL agents. Nevertheless, this decentralized method introduces new challenges: the environment becomes partially observable from the perspective of each local agent due to constrained inter-agent communication. Both centralized RL and MARL exhibit distinct strengths and weaknesses, particularly under heavy intersectional traffic conditions. In this paper, we justify that MARL can achieve the optimal global Q-value by separating into multiple IRL (Independent Reinforcement Learning) processes when no spill-back congestion occurs (no agent dependency) among agents (intersections). In the presence of spill-back congestion (with agent dependency), the maximum global Q-value can be achieved by using centralized RL. Building upon the conclusions, we propose a novel Dynamic Parameter Update Strategy for Deep Q-Network (DQN-DPUS), which updates the weights and bias based on the dependency dynamics among agents, i.e. updating only the diagonal sub-matrices for the scenario without spill-back congestion. We validate the DQN-DPUS in a simple network with two intersections under varying traffic, and show that the proposed strategy can speed up the convergence rate without sacrificing optimal exploration. The results corroborate our theoretical findings, demonstrating the efficacy of DQN-DPUS in optimizing traffic signal control.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、複雑な都市交通ネットワークにおける適応的交通信号制御(ATSC)のための有望なデータ駆動型アプローチとして出現する。しかし, 関節アクション空間の超高次元性により, 複数のエージェントが関与するATSCでは, 集中型RLは非現実的となる。マルチエージェントRL(MARL)は、ローカルなRLエージェントに制御を分散することで、このスケーラビリティ問題を緩和する。しかしながら, この分散化手法は, エージェント間通信の制約により, 各エージェントの観点から環境が部分的に観察可能であること, という新たな課題を提起する。中央集権的なRLとMARLは、特に大きな交差点の交通条件下では、それぞれ異なる長所と短所を示す。本稿では,MARLが複数のIRL(独立強化学習)プロセスに分離することで,エージェント間(介在物間)の引きこぼし(エージェント依存性)が発生しない場合に,最適なQ値が得られることを正当化する。こぼこぼこ(エージェント依存)の存在下では、集中型RLを用いることで、大域的Q値の最大化が可能である。本稿では,エージェント間の依存性のダイナミクスに基づいて重みとバイアスを更新するDQN-DPUS(Dynamic Parameter Update Strategy for Deep Q-Network)を提案する。我々は,DQN-DPUSを2つの交差点を持つ単純なネットワークで検証し,最適探索を犠牲にすることなく収束速度を向上できることを示す。その結果,DQN-DPUSが交通信号制御の最適化に有効であることが示唆された。

関連論文リスト

Improving Traffic Flow Predictions with SGCN-LSTM: A Hybrid Model for Spatial and Temporal Dependencies [55.2480439325792]
本稿ではSGCN-LSTM(Signal-Enhanced Graph Convolutional Network Long Short Term Memory)モデルを提案する。 PEMS-BAYロードネットワークトラフィックデータセットの実験は、SGCN-LSTMモデルの有効性を示す。
論文参考訳（メタデータ） (2024-11-01T00:37:00Z)
Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。 STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文参考訳（メタデータ） (2024-06-19T07:17:04Z)
Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文参考訳（メタデータ） (2023-10-05T21:44:18Z)
A Novel Multi-Agent Deep RL Approach for Traffic Signal Control [13.927155702352131]
都市ネットワークにおける複数の交通信号制御のための Friend-Deep Q-network (Friend-DQN) アプローチを提案する。特に、複数のエージェント間の協調は状態-作用空間を減少させ、収束を加速させる。
論文参考訳（メタデータ） (2023-06-05T08:20:37Z)
Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach [7.23135508361981]
本稿では,完全集中型とMARLの両アプローチの弱点を緩和する,非政治的な深いQ-Network (OPNDQN) アルゴリズムを提案する。 OPNDQNの主な利点の1つはマルチエージェントマルコフ過程の非定常性を緩和することである。平均キュー長,エピソードトレーニング報酬,平均待ち時間の観点から,既存のMARLアプローチよりもOPNDQNの方が優位であることを示す。
論文参考訳（メタデータ） (2023-01-02T12:58:51Z)
A Deep Reinforcement Learning Approach for Traffic Signal Control Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文参考訳（メタデータ） (2021-07-13T14:11:04Z)
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文参考訳（メタデータ） (2021-06-30T16:49:07Z)
Independent Reinforcement Learning for Weakly Cooperative Multiagent Traffic Control Problem [22.733542222812158]
本研究では,irl(independent reinforcement learning)を用いて複雑な交通協調制御問題を解く。そこで, 交通制御問題を部分的に観測可能な弱協調交通モデル (PO-WCTM) としてモデル化し, 交差点群全体の交通状況を最適化する。実験の結果,CIL-DDQNはトラヒック制御問題のほぼすべての性能指標において,他の手法よりも優れていた。
論文参考訳（メタデータ） (2021-04-22T07:55:46Z)
MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文参考訳（メタデータ） (2021-01-04T03:06:08Z)
Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文参考訳（メタデータ） (2020-10-30T22:06:05Z)
Area-wide traffic signal control based on a deep graph Q-Network (DGQN) trained in an asynchronous manner [3.655021726150368]
強化学習(RL)アルゴリズムは交通信号研究に広く応用されている。しかし,大規模交通ネットワークにおける信号機の共同制御にはいくつかの問題がある。
論文参考訳（メタデータ） (2020-08-05T06:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。