論文の概要: MacLight: Multi-scene Aggregation Convolutional Learning for Traffic Signal Control
- arxiv url: http://arxiv.org/abs/2412.15703v2
- Date: Mon, 23 Dec 2024 10:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 12:13:24.051739
- Title: MacLight: Multi-scene Aggregation Convolutional Learning for Traffic Signal Control
- Title(参考訳): MacLight:交通信号制御のためのマルチシーンアグリゲーション畳み込み学習
- Authors: Sunbowen Lee, Hongqin Lyu, Yicheng Gong, Yingying Sun, Chao Deng,
- Abstract要約: 大規模道路網で訓練可能な交通信号制御ポリシーを, 強化学習手法により提案した。
現在のSOTA手法は、道路ネットワークをトポロジカルグラフ構造としてモデル化し、グラフ注意を深層Q-ラーニングに組み込み、局所的およびグローバルな埋め込みをマージしてポリシーを改善する。
交通信号制御(MacLight)のためのマルチシーン・アグリゲーション・コンボリューショナル・ラーニングを提案する。
- 参考スコア(独自算出の注目度): 8.342432309172757
- License:
- Abstract: Reinforcement learning methods have proposed promising traffic signal control policy that can be trained on large road networks. Current SOTA methods model road networks as topological graph structures, incorporate graph attention into deep Q-learning, and merge local and global embeddings to improve policy. However, graph-based methods are difficult to parallelize, resulting in huge time overhead. Moreover, none of the current peer studies have deployed dynamic traffic systems for experiments, which is far from the actual situation. In this context, we propose Multi-Scene Aggregation Convolutional Learning for traffic signal control (MacLight), which offers faster training speeds and more stable performance. Our approach consists of two main components. The first is the global representation, where we utilize variational autoencoders to compactly compress and extract the global representation. The second component employs the proximal policy optimization algorithm as the backbone, allowing value evaluation to consider both local features and global embedding representations. This backbone model significantly reduces time overhead and ensures stability in policy updates. We validated our method across multiple traffic scenarios under both static and dynamic traffic systems. Experimental results demonstrate that, compared to general and domian SOTA methods, our approach achieves superior stability, optimized convergence levels and the highest time efficiency. The code is under https://github.com/Aegis1863/MacLight.
- Abstract(参考訳): 大規模道路網で訓練可能な交通信号制御ポリシーを, 強化学習手法により提案した。
現在のSOTA手法は、道路ネットワークをトポロジカルグラフ構造としてモデル化し、グラフ注意を深層Q-ラーニングに組み込み、局所的およびグローバルな埋め込みをマージしてポリシーを改善する。
しかし、グラフベースの手法は並列化が難しいため、膨大な時間的オーバーヘッドが生じる。
さらに、現在のピアスタディでは、実験のために動的トラフィックシステムをデプロイしていないが、実際の状況からは程遠い。
そこで本研究では,より高速な学習速度とより安定した性能を実現する交通信号制御のためのマルチシーン・アグリゲーション・コンボリューショナル・ラーニング(MacLight)を提案する。
私たちのアプローチは2つの主要コンポーネントで構成されています。
1つ目はグローバル表現であり、変分オートエンコーダを用いてグローバル表現をコンパクトに圧縮し抽出する。
第2のコンポーネントは、近似ポリシー最適化アルゴリズムをバックボーンとして使用し、局所的な特徴とグローバルな埋め込み表現の両方を評価できる。
このバックボーンモデルは、時間オーバーヘッドを大幅に削減し、ポリシー更新の安定性を保証する。
静的および動的トラフィックシステムの両方で複数のトラフィックシナリオにまたがる手法を検証する。
実験により, 一般およびドミアンSOTA法と比較して, 優れた安定性, 最適収束度, 最高時間効率が得られた。
コードはhttps://github.com/Aegis1863/MacLightで公開されている。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Highway Graph to Accelerate Reinforcement Learning [18.849312069946993]
状態遷移をモデル化するための新しいグラフ構造であるハイウェイグラフを提案する。
ハイウェイグラフをRLに統合することにより、初期の段階でRLトレーニングを著しく加速させることができる。
ディープニューラルネットワークベースのエージェントは、ハイウェイグラフを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-05-20T02:09:07Z) - Cooperative Multi-Objective Reinforcement Learning for Traffic Signal
Control and Carbon Emission Reduction [3.3454373538792552]
本稿では,多目的多元的深層決定主義政策グラディエントという協調型多目的アーキテクチャを提案する。
MOMA-DDPGは、年齢遅延重みを用いた信号制御最適化のための複数の報酬項を推定する。
以上の結果から,MOMA-DDPGの有効性が示された。
論文 参考訳(メタデータ) (2023-06-16T07:37:05Z) - Improving the generalizability and robustness of large-scale traffic
signal control [3.8028221877086814]
交通信号の制御における深部強化学習(RL)アプローチの堅牢性について検討する。
欠落したデータに対して,近年の手法が脆弱なままであることを示す。
政策アンサンブルによる分散強化学習とバニラ強化学習の組み合わせを提案する。
論文 参考訳(メタデータ) (2023-06-02T21:30:44Z) - ADLight: A Universal Approach of Traffic Signal Control with Augmented
Data Using Reinforcement Learning [3.3458830284045065]
本稿では,拡張データ(ADLight)を用いた新しい強化学習手法を提案する。
一般化性能を向上させるために,textitmovement shuffle という新しいデータ拡張手法を開発した。
その結果,本手法の性能は,単一環境で訓練されたモデルに近いことがわかった。
論文 参考訳(メタデータ) (2022-10-24T16:21:48Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Efficiency and Equity are Both Essential: A Generalized Traffic Signal
Controller with Deep Reinforcement Learning [25.21831641893209]
本稿では,信号制御系に対して,最適化されたトラフィックフローを目的とした深層強化学習を用いた学習ポリシーを提案する。
提案手法は,効率と公平性を同時に考慮した報酬関数の新規な定式化を用いている。
シミュレーションおよび実世界のデータを用いた実験により,提案アルゴリズムが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-03-09T11:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。