論文の概要: DynamicLight: Dynamically Tuning Traffic Signal Duration with DRL
- arxiv url: http://arxiv.org/abs/2211.01025v1
- Date: Wed, 2 Nov 2022 10:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:37:40.773053
- Title: DynamicLight: Dynamically Tuning Traffic Signal Duration with DRL
- Title(参考訳): DynamicLight:DRLによる交通信号の動的調整
- Authors: Liang Zhang, Qiang Wu, Jun Shen, Linyuan L\"u, Bo Du, Akbar Telikani,
Jianqing Wu, Shubin Xie
- Abstract要約: このフレームワークは、Max Queue-Lengthを用いて適切なフェーズを選択し、深層Qラーニングネットワークを用いて、対応するフェーズの持続時間を決定する。
また,DynamicLightの設計に基づいて,(1)動的位相時間設定を実現するために19個のパラメータのみを用いることで,第1の課題に対処するDynamicLight-Lite,(2)循環相構造においてフレキシブルな位相期間を実現するために,固定された周期順序で位相の集合を動作させることで第2の課題に取り組むDynamicLight-Cycleという2つのバリエーションを導入する。
- 参考スコア(独自算出の注目度): 26.59482399009933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) is becoming increasingly popular in
implementing traffic signal control (TSC). However, most existing DRL methods
employ fixed control strategies, making traffic signal phase duration less
flexible. Additionally, the trend of using more complex DRL models makes
real-life deployment more challenging. To address these two challenges, we
firstly propose a two-stage DRL framework, named DynamicLight, which uses Max
Queue-Length to select the proper phase and employs a deep Q-learning network
to determine the duration of the corresponding phase. Based on the design of
DynamicLight, we also introduce two variants: (1) DynamicLight-Lite, which
addresses the first challenge by using only 19 parameters to achieve dynamic
phase duration settings; and (2) DynamicLight-Cycle, which tackles the second
challenge by actuating a set of phases in a fixed cyclical order to implement
flexible phase duration in the respective cyclical phase structure. Numerical
experiments are conducted using both real-world and synthetic datasets,
covering four most commonly adopted traffic signal intersections in real life.
Experimental results show that: (1) DynamicLight can learn satisfactorily on
determining the phase duration and achieve a new state-of-the-art, with
improvement up to 6% compared to the baselines in terms of adjusted average
travel time; (2) DynamicLight-Lite matches or outperforms most baseline methods
with only 19 parameters; and (3) DynamicLight-Cycle demonstrates high
performance for current TSC systems without remarkable modification in an
actual deployment. Our code is released at Github.
- Abstract(参考訳): 交通信号制御 (TSC) の実装において, 深層強化学習 (DRL) がますます普及しつつある。
しかし、既存のDRL法の多くは固定制御方式を採用しており、信号位相の柔軟性が低下している。
さらに、より複雑なDRLモデルを使用する傾向は、実際のデプロイメントをより困難にしている。
この2つの課題に対処するため,我々はまず,Max Queue-Length を用いて適切な位相を選択するための2段階の DRL フレームワーク DynamicLight を提案する。
ダイナミックライトの設計に基づいて,(1)19個のパラメータのみを用いて動的位相持続時間設定を行う,第1の課題に対処するdynamiclight-liteと,(2)周期的位相構造においてフレキシブルな位相持続性を実現するために固定周期順に位相群を動作させることにより第2の課題に取り組むdynamiclight-cycleの2つの変種を導入する。
実生活において最も広く採用されている4つの信号交差点をカバーする実世界のデータセットと合成データセットを用いて数値実験を行った。
実験結果から, 1) DynamicLightは, 平均走行時間の調整により, ベースラインに比べて最大6%の改善が達成され, 位相長の判断に満足して新たな状態を実現することができること, (2) DynamicLight-Liteマッチングや, および, (3) DynamicLight-Cycleは, 実際の展開において顕著な変更を伴わずに, 現在のTSCシステムの性能を示す。
私たちのコードはgithubでリリースされています。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Traffic Signal Control Using Lightweight Transformers: An
Offline-to-Online RL Approach [6.907105812732423]
我々は,オフラインで容易にアクセス可能なデータセットからポリシーを学習可能な,軽量な決定変換方式DTLightを提案する。
オフラインデータセット上で純粋に事前トレーニングされたDTLightは、ほとんどのシナリオで最先端のオンラインRLベースのメソッドより優れている。
実験の結果、オンラインの微調整により、最高のオンラインRLベースラインメソッドよりもDTLightのパフォーマンスが42.6%向上することが示された。
論文 参考訳(メタデータ) (2023-12-12T23:21:57Z) - Data Might be Enough: Bridge Real-World Traffic Signal Control Using
Offline Reinforcement Learning [3.276435438007766]
交通信号制御(TSC)への強化学習が有望なソリューションとなっている。
環境との相互作用を必要とするオンラインRLベースの手法は、実環境との相互作用に制限される。
これらの課題に対処するために,(1)一般的な実世界のシナリオに基づいて設計された循環型オフラインデータセット(COD),(2)CODから満足度の高い制御戦略を学習可能なDataLightと呼ばれるオフラインRLモデル,(3)ほとんどのRLベースの手法を循環型信号制御に変換するArbitrary To Cyclical(ATC)を提案する。
論文 参考訳(メタデータ) (2023-03-20T02:02:50Z) - DynLight: Realize dynamic phase duration with multi-level traffic signal
control [2.773426016230597]
位相決定に最適化手法Max-QueueLength (M-QL) を用いる多層信号制御フレームワークDynLightを提案する。
さらに、DynLightのQ-networkをよく訓練したDynLight-Cを提案し、M-QLを固定された循環制御ポリシーで置き換え、周期的な位相構造を実現する。
論文 参考訳(メタデータ) (2022-04-07T14:39:38Z) - Leveraging Queue Length and Attention Mechanisms for Enhanced Traffic
Signal Control Optimization [3.0309252269809264]
本稿では、待ち行列長を効率的な状態表現として利用する交通信号制御(TSC)について述べる。
複数の実世界のデータセットに関する総合的な実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-12-30T09:24:09Z) - Expression is enough: Improving traffic signal control with advanced
traffic state representation [24.917612761503996]
フレキシブルで簡便な新手法であるアドバンストマックスプレッシャー(Advanced-MP)を提案する。
我々はまた、ATSと現在のRLアプローチを組み合わせたRLベースのアルゴリズムテンプレートAdvanced-XLightを開発し、「Advanced-MPLight」と「Advanced-CoLight」の2つのRLアルゴリズムを生成する。
複数の実世界のデータセットに関する総合的な実験によると、(1)Advanced-MPは、デプロイに効率的で信頼性の高いベースラインメソッドよりも優れており、(2)Advanced-MPLightとAdvanced-CoLightは、新しい最先端を実現することができる。
論文 参考訳(メタデータ) (2021-12-19T10:28:39Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文 参考訳(メタデータ) (2021-01-06T03:50:50Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。