論文の概要: DynLight: Realize dynamic phase duration with multi-level traffic signal
control
- arxiv url: http://arxiv.org/abs/2204.03471v1
- Date: Thu, 7 Apr 2022 14:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:05:01.178426
- Title: DynLight: Realize dynamic phase duration with multi-level traffic signal
control
- Title(参考訳): DynLight:マルチレベル信号制御による動的位相長の実現
- Authors: Liang Zhang, Shubin Xie, Jianming Deng
- Abstract要約: 位相決定に最適化手法Max-QueueLength (M-QL) を用いる多層信号制御フレームワークDynLightを提案する。
さらに、DynLightのQ-networkをよく訓練したDynLight-Cを提案し、M-QLを固定された循環制御ポリシーで置き換え、周期的な位相構造を実現する。
- 参考スコア(独自算出の注目度): 2.773426016230597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adopting reinforcement learning (RL) for traffic signal control is
increasingly popular. Most RL methods use fixed action interval (denoted as
tduration) and actuate or maintain a phase every tduration, which makes the
phase duration less dynamic and flexible. In addition, the actuated phase can
be arbitrary, affecting the real-world deployment, which requires a fixed
cyclical phase structure. To address these challenges, we propose a multi-level
traffic signal control framework, DynLight, which uses an optimization method
Max-QueueLength (M-QL) to determine the phase and uses a deep Q-network to
determine the corresponding duration. Based on DynLight, we further propose
DynLight-C that adopts a well trained deep Q-network of DynLight and replace
M-QL by a fixed cyclical control policy that actuate a set of phases in fixed
order to realize cyclical phase structure. Comprehensive experiments on
multiple real-world datasets demonstrate that DynLight achives a new
state-of-the-art. Furthermore, the deep Q-network of DynLight can learn well on
determining the phase duration and DynLight-C demonstrates high performance for
deployment.
- Abstract(参考訳): 信号制御における強化学習(RL)の採用はますます人気がある。
ほとんどのRL法は固定動作間隔(tdurationと表記される)を使用し、各tdurationごとに位相をアクティベートまたは維持することにより、位相の持続時間がよりダイナミックでフレキシブルになる。
さらに、活性化相は任意であり、固定循環相構造を必要とする実世界の展開に影響を与える。
これらの課題に対処するために,最適化手法であるMax-QueueLength (M-QL) を用いたマルチレベル信号制御フレームワークDynLightを提案する。
さらに、DynLightのQ-networkをよく訓練したDynLight-Cを提案し、M-QLを固定された循環制御ポリシーで置き換え、周期的な位相構造を実現する。
複数の実世界のデータセットに関する包括的な実験は、DynLightが新しい最先端を達成していることを示している。
さらに、DynLightの深いQ-networkは、フェーズ期間の決定について十分に学習することができ、DynLight-Cは、デプロイメントの高性能を実証する。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - CycLight: learning traffic signal cooperation with a cycle-level
strategy [10.303270722832924]
本研究では,ネットワークレベル適応交通信号制御(NATSC)システムのための新しいサイクルレベル深部強化学習(RL)手法であるCycLightを紹介する。
ステップバイステップの決定にフォーカスする従来のRLベースのトラフィックコントローラとは異なり、CycLightはサイクルレベルの戦略を採用し、サイクル長を最適化し、同時に分割する。
論文 参考訳(メタデータ) (2024-01-16T05:28:12Z) - Controllable Motion Diffusion Model [59.52889433954535]
制御可能な運動拡散モデル(COMODO)の枠組みを提案する。
我々のフレームワークは自動回帰運動拡散モデル(A-MDM)から始まり、ステップごとに動きのシーケンスを生成する。
そこで本研究では,A-MDMモデル上での強化学習に基づく制御手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - DynamicLight: Dynamically Tuning Traffic Signal Duration with DRL [26.59482399009933]
このフレームワークは、Max Queue-Lengthを用いて適切なフェーズを選択し、深層Qラーニングネットワークを用いて、対応するフェーズの持続時間を決定する。
また,DynamicLightの設計に基づいて,(1)動的位相時間設定を実現するために19個のパラメータのみを用いることで,第1の課題に対処するDynamicLight-Lite,(2)循環相構造においてフレキシブルな位相期間を実現するために,固定された周期順序で位相の集合を動作させることで第2の課題に取り組むDynamicLight-Cycleという2つのバリエーションを導入する。
論文 参考訳(メタデータ) (2022-11-02T10:39:59Z) - ADLight: A Universal Approach of Traffic Signal Control with Augmented
Data Using Reinforcement Learning [3.3458830284045065]
本稿では,拡張データ(ADLight)を用いた新しい強化学習手法を提案する。
一般化性能を向上させるために,textitmovement shuffle という新しいデータ拡張手法を開発した。
その結果,本手法の性能は,単一環境で訓練されたモデルに近いことがわかった。
論文 参考訳(メタデータ) (2022-10-24T16:21:48Z) - Time-to-Green predictions for fully-actuated signal control systems with
supervised learning [56.66331540599836]
本稿では,集約信号とループ検出データを用いた時系列予測フレームワークを提案する。
我々は、最先端の機械学習モデルを用いて、将来の信号位相の持続時間を予測する。
スイスのチューリッヒの信号制御システムから得られた経験的データに基づいて、機械学習モデルが従来の予測手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-24T07:50:43Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Efficient Pressure: Improving efficiency for signalized intersections [24.917612761503996]
交通信号制御(TSC)の問題を解決するために,強化学習(RL)が注目されている。
既存のRLベースの手法は、計算資源の面でコスト効率が良くなく、従来の手法よりも堅牢ではないため、ほとんどデプロイされない。
我々は,RTLに基づくアプローチに基づいて,トレーニングを減らし,複雑さを低減したTSCの適応制御系を構築する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T13:49:58Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - PDLight: A Deep Reinforcement Learning Traffic Light Control Algorithm
with Pressure and Dynamic Light Duration [5.585321463602587]
PRCOL(Pressure with Retaining Capacity of Outgoing Lane)として新たな報酬を付与した深部強化学習(DRL)トラヒック光制御アルゴリズムPDlightを提案する。
PRCOLは、交通制御アルゴリズムで使用される圧力に対する改善として、入車車線の車両数だけでなく、出車線の残りの容量も考慮している。
論文 参考訳(メタデータ) (2020-09-29T01:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。