論文の概要: A Hierarchical Deep Reinforcement Learning Framework for Traffic Signal Control with Predictable Cycle Planning
- arxiv url: http://arxiv.org/abs/2509.03118v1
- Date: Wed, 03 Sep 2025 08:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.459646
- Title: A Hierarchical Deep Reinforcement Learning Framework for Traffic Signal Control with Predictable Cycle Planning
- Title(参考訳): 予測可能サイクル計画による交通信号制御のための階層的深層強化学習フレームワーク
- Authors: Hankang Gu, Yuli Zhang, Chengming Wang, Ruiyuan Jiang, Ziheng Qiao, Pengfei Fan, Dongyao Jia,
- Abstract要約: 本稿では,DHCP(Deep Hierarchical Cycle Planner)と呼ばれるDRLモデルを提案する。
高レベルエージェントは、まず、全体トラフィック状態に基づいて、南北方向(NS)と東西方向(EW)の合計サイクル時間の分割を決定する。
低レベルエージェントは、各主要方向の割り当てられた期間をストレートと左ターンの動作に分割し、2つの動作に対してより柔軟な持続時間を可能にする。
- 参考スコア(独自算出の注目度): 6.95629541832276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has become a popular approach in traffic signal control (TSC) due to its ability to learn adaptive policies from complex traffic environments. Within DRL-based TSC methods, two primary control paradigms are ``choose phase" and ``switch" strategies. Although the agent in the choose phase paradigm selects the next active phase adaptively, this paradigm may result in unexpected phase sequences for drivers, disrupting their anticipation and potentially compromising safety at intersections. Meanwhile, the switch paradigm allows the agent to decide whether to switch to the next predefined phase or extend the current phase. While this structure maintains a more predictable order, it can lead to unfair and inefficient phase allocations, as certain movements may be extended disproportionately while others are neglected. In this paper, we propose a DRL model, named Deep Hierarchical Cycle Planner (DHCP), to allocate the traffic signal cycle duration hierarchically. A high-level agent first determines the split of the total cycle time between the North-South (NS) and East-West (EW) directions based on the overall traffic state. Then, a low-level agent further divides the allocated duration within each major direction between straight and left-turn movements, enabling more flexible durations for the two movements. We test our model on both real and synthetic road networks, along with multiple sets of real and synthetic traffic flows. Empirical results show our model achieves the best performance over all datasets against baselines.
- Abstract(参考訳): 深部強化学習(DRL)は交通信号制御(TSC)において,複雑な交通環境から適応的な政策を学習する能力によって普及している。
DRLに基づくTSC法では、主要な制御パラダイムは ``choose phase' と ``switch" の2つである。
選択フェーズパラダイムのエージェントは次のアクティブフェーズを適応的に選択するが、このパラダイムはドライバの予期せぬフェーズシーケンスを発生させ、彼らの期待を乱し、交差点での安全性を損なう可能性がある。
一方、スイッチパラダイムでは、エージェントが次の事前定義されたフェーズに切り替えるか、あるいは現在のフェーズを拡張するかを決定することができる。
この構造はより予測可能な順序を維持しているが、ある動きが不均等に拡張され、他の動きが無視されるため、不公平で非効率な位相割り当てにつながる可能性がある。
本稿では,DHCP(Deep Hierarchical Cycle Planner)と呼ばれるDRLモデルを提案する。
高レベルエージェントは、まず、全体トラフィック状態に基づいて、南北方向(NS)と東西方向(EW)の合計サイクル時間の分割を決定する。
そして、低レベルエージェントはさらに、各主要方向の割り当て期間をストレートと左ターンの2つの動作に分割し、この2つの動作に対してよりフレキシブルな持続時間を可能にする。
我々は,実・合成道路網と実・合成交通流の複数セットを用いて,本モデルをテストする。
実験結果から,本モデルがベースラインに対して全データセットに対して最高の性能を達成することを示す。
関連論文リスト
- Federated Hierarchical Reinforcement Learning for Adaptive Traffic Signal Control [5.570882985800125]
マルチエージェント強化学習(MARL)は、適応的な交通信号制御(ATSC)を約束している。
MARLは広範なデータ共有と通信要求のために制約に直面している。
我々はATSCのための階層型統合強化学習(HFRL)を提案する。
論文 参考訳(メタデータ) (2025-04-07T23:02:59Z) - Toward Dependency Dynamics in Multi-Agent Reinforcement Learning for Traffic Signal Control [8.312659530314937]
適応的な信号制御のためのデータ駆動型アプローチとして強化学習(RL)が出現する。
本稿では,DQN-DPUS(Deep Q-Network)のための動的強化更新戦略を提案する。
提案手法は最適探索を犠牲にすることなく収束速度を向上できることを示す。
論文 参考訳(メタデータ) (2025-02-23T15:29:12Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Reinforcement Learning for Adaptive Traffic Signal Control: Turn-Based and Time-Based Approaches to Reduce Congestion [2.733700237741334]
本稿では,交差点における信号処理の強化にReinforcement Learning(強化学習)を用いることについて検討する。
本稿では,リアルタイム待ち行列長に基づく信号の動的優先順位付けを行うターンベースエージェントと,交通条件に応じた信号位相長の調整を行うタイムベースエージェントの2つのアルゴリズムを紹介する。
シミュレーションの結果、両RLアルゴリズムは従来の信号制御システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-28T12:35:56Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Adaptive Hierarchical SpatioTemporal Network for Traffic Forecasting [70.66710698485745]
本稿では,AHSTN(Adaptive Hierarchical SpatioTemporal Network)を提案する。
AHSTNは空間階層を利用し、マルチスケール空間相関をモデル化する。
2つの実世界のデータセットの実験により、AHSTNはいくつかの強いベースラインよりも優れたパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T14:50:27Z) - DenseLight: Efficient Control for Large-scale Traffic Signals with Dense
Feedback [109.84667902348498]
交通信号制御(TSC)は、道路網における車両の平均走行時間を短縮することを目的としている。
従来のTSC手法は、深い強化学習を利用して制御ポリシーを探索する。
DenseLightは、不偏報酬関数を用いてポリシーの有効性をフィードバックする新しいRTLベースのTSC手法である。
論文 参考訳(メタデータ) (2023-06-13T05:58:57Z) - DynamicLight: Two-Stage Dynamic Traffic Signal Timing [8.755401336827692]
我々はDynamicLightという新しい2段階のTSCフレームワークを紹介した。
このフレームワークは、最適なトラフィックフェーズを決定するためのフェーズ制御戦略と、対応するフェーズ期間を決定するための期間制御戦略とを同時に開始する。
実験により、DynamicLightは最先端のTSCモデルより優れ、例外的なモデル一般化能力を示すことが示された。
論文 参考訳(メタデータ) (2022-11-02T10:39:59Z) - Time-to-Green predictions for fully-actuated signal control systems with
supervised learning [56.66331540599836]
本稿では,集約信号とループ検出データを用いた時系列予測フレームワークを提案する。
我々は、最先端の機械学習モデルを用いて、将来の信号位相の持続時間を予測する。
スイスのチューリッヒの信号制御システムから得られた経験的データに基づいて、機械学習モデルが従来の予測手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-24T07:50:43Z) - DynLight: Realize dynamic phase duration with multi-level traffic signal
control [2.773426016230597]
位相決定に最適化手法Max-QueueLength (M-QL) を用いる多層信号制御フレームワークDynLightを提案する。
さらに、DynLightのQ-networkをよく訓練したDynLight-Cを提案し、M-QLを固定された循環制御ポリシーで置き換え、周期的な位相構造を実現する。
論文 参考訳(メタデータ) (2022-04-07T14:39:38Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。