論文の概要: DynLight: Realize dynamic phase duration with multi-level traffic signal
control
- arxiv url: http://arxiv.org/abs/2204.03471v1
- Date: Thu, 7 Apr 2022 14:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:05:01.178426
- Title: DynLight: Realize dynamic phase duration with multi-level traffic signal
control
- Title(参考訳): DynLight:マルチレベル信号制御による動的位相長の実現
- Authors: Liang Zhang, Shubin Xie, Jianming Deng
- Abstract要約: 位相決定に最適化手法Max-QueueLength (M-QL) を用いる多層信号制御フレームワークDynLightを提案する。
さらに、DynLightのQ-networkをよく訓練したDynLight-Cを提案し、M-QLを固定された循環制御ポリシーで置き換え、周期的な位相構造を実現する。
- 参考スコア(独自算出の注目度): 2.773426016230597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adopting reinforcement learning (RL) for traffic signal control is
increasingly popular. Most RL methods use fixed action interval (denoted as
tduration) and actuate or maintain a phase every tduration, which makes the
phase duration less dynamic and flexible. In addition, the actuated phase can
be arbitrary, affecting the real-world deployment, which requires a fixed
cyclical phase structure. To address these challenges, we propose a multi-level
traffic signal control framework, DynLight, which uses an optimization method
Max-QueueLength (M-QL) to determine the phase and uses a deep Q-network to
determine the corresponding duration. Based on DynLight, we further propose
DynLight-C that adopts a well trained deep Q-network of DynLight and replace
M-QL by a fixed cyclical control policy that actuate a set of phases in fixed
order to realize cyclical phase structure. Comprehensive experiments on
multiple real-world datasets demonstrate that DynLight achives a new
state-of-the-art. Furthermore, the deep Q-network of DynLight can learn well on
determining the phase duration and DynLight-C demonstrates high performance for
deployment.
- Abstract(参考訳): 信号制御における強化学習(RL)の採用はますます人気がある。
ほとんどのRL法は固定動作間隔(tdurationと表記される)を使用し、各tdurationごとに位相をアクティベートまたは維持することにより、位相の持続時間がよりダイナミックでフレキシブルになる。
さらに、活性化相は任意であり、固定循環相構造を必要とする実世界の展開に影響を与える。
これらの課題に対処するために,最適化手法であるMax-QueueLength (M-QL) を用いたマルチレベル信号制御フレームワークDynLightを提案する。
さらに、DynLightのQ-networkをよく訓練したDynLight-Cを提案し、M-QLを固定された循環制御ポリシーで置き換え、周期的な位相構造を実現する。
複数の実世界のデータセットに関する包括的な実験は、DynLightが新しい最先端を達成していることを示している。
さらに、DynLightの深いQ-networkは、フェーズ期間の決定について十分に学習することができ、DynLight-Cは、デプロイメントの高性能を実証する。
関連論文リスト
- MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - MTLight: Efficient Multi-Task Reinforcement Learning for Traffic Signal Control [56.545522358606924]
MTLightは、多数の交通指標から学習した潜伏状態のエージェント観測を強化するために提案されている。
CityFlowで行った実験は、MTLightが収束速度と性能をリードしていることを示している。
論文 参考訳(メタデータ) (2024-04-01T03:27:46Z) - Learning Traffic Signal Control via Genetic Programming [2.954908748487635]
複雑な交差点における信号制御の新しい学習手法を提案する。
本手法では,各信号位相に対する位相緊急の概念を設計する。
緊急関数は、現在の道路条件に基づいて特定位相の位相緊急を算出することができる。
論文 参考訳(メタデータ) (2024-03-26T02:22:08Z) - Hyperparameters in Continual Learning: A Reality Check [53.30082523545212]
連続学習(CL)は、可塑性(新しいタスクを学ぶ)と安定性(事前知識を保持する)のトレードオフをバランスしながら、一連のタスクでモデルを訓練することを目的としている。
CLアルゴリズムの従来の評価プロトコルは、与えられたシナリオで最適なハイパーパラメータを選択し、同じシナリオでアルゴリズムを評価する。
このプロトコルには大きな欠点があり、アルゴリズムのCL能力を過大評価し、非現実的なハイパーパラメータチューニングに依存している。
CLアルゴリズムの評価は,予測できないシナリオに対するCL能力の一般化性を評価することに集中すべきである,と我々は主張する。
論文 参考訳(メタデータ) (2024-03-14T03:13:01Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - CycLight: learning traffic signal cooperation with a cycle-level
strategy [10.303270722832924]
本研究では,ネットワークレベル適応交通信号制御(NATSC)システムのための新しいサイクルレベル深部強化学習(RL)手法であるCycLightを紹介する。
ステップバイステップの決定にフォーカスする従来のRLベースのトラフィックコントローラとは異なり、CycLightはサイクルレベルの戦略を採用し、サイクル長を最適化し、同時に分割する。
論文 参考訳(メタデータ) (2024-01-16T05:28:12Z) - DynamicLight: Two-Stage Dynamic Traffic Signal Timing [8.755401336827692]
我々はDynamicLightという新しい2段階のTSCフレームワークを紹介した。
このフレームワークは、最適なトラフィックフェーズを決定するためのフェーズ制御戦略と、対応するフェーズ期間を決定するための期間制御戦略とを同時に開始する。
実験により、DynamicLightは最先端のTSCモデルより優れ、例外的なモデル一般化能力を示すことが示された。
論文 参考訳(メタデータ) (2022-11-02T10:39:59Z) - Time-to-Green predictions for fully-actuated signal control systems with
supervised learning [56.66331540599836]
本稿では,集約信号とループ検出データを用いた時系列予測フレームワークを提案する。
我々は、最先端の機械学習モデルを用いて、将来の信号位相の持続時間を予測する。
スイスのチューリッヒの信号制御システムから得られた経験的データに基づいて、機械学習モデルが従来の予測手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-24T07:50:43Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Efficient Pressure: Improving efficiency for signalized intersections [24.917612761503996]
交通信号制御(TSC)の問題を解決するために,強化学習(RL)が注目されている。
既存のRLベースの手法は、計算資源の面でコスト効率が良くなく、従来の手法よりも堅牢ではないため、ほとんどデプロイされない。
我々は,RTLに基づくアプローチに基づいて,トレーニングを減らし,複雑さを低減したTSCの適応制御系を構築する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T13:49:58Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。