論文の概要: Reinforcement learning for traffic signal control in hybrid action space
- arxiv url: http://arxiv.org/abs/2211.12956v2
- Date: Fri, 25 Nov 2022 10:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 12:08:30.217682
- Title: Reinforcement learning for traffic signal control in hybrid action space
- Title(参考訳): ハイブリッド行動空間における交通信号制御のための強化学習
- Authors: Haoqing Luo, sheng jin
- Abstract要約: 本稿では,ハイブリッドポリシ最適化に基づく新しい交通信号制御アーキテクチャを提案する。
我々の知る限り、TBOは、ステージングと期間の同期最適化を実装する最初のRLベースのアルゴリズムである。
- 参考スコア(独自算出の注目度): 5.923546495419043
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The prevailing reinforcement-learning-based traffic signal control methods
are typically staging-optimizable or duration-optimizable, depending on the
action spaces. In this paper, we propose a novel control architecture, TBO,
which is based on hybrid proximal policy optimization. To the best of our
knowledge, TBO is the first RL-based algorithm to implement synchronous
optimization of the staging and duration. Compared to discrete and continuous
action spaces, hybrid action space is a merged search space, in which TBO
better implements the trade-off between frequent switching and unsaturated
release. Experiments are given to demonstrate that TBO reduces the queue length
and delay by 13.78% and 14.08% on average, respectively, compared to the
existing baselines. Furthermore, we calculate the Gini coefficients of the
right-of-way to indicate TBO does not harm fairness while improving efficiency.
- Abstract(参考訳): 一般的な強化学習に基づくトラヒック信号制御手法は、通常、動作空間に応じてステージング最適化または持続時間最適化である。
本稿では,ハイブリッドな近位政策最適化に基づく新しい制御アーキテクチャtboを提案する。
我々の知る限り、TBOは、ステージングと期間の同期最適化を実装する最初のRLベースのアルゴリズムである。
離散的かつ連続的なアクション空間と比較して、ハイブリッドアクション空間は統合された検索空間であり、TBOは頻繁なスイッチングと不飽和なリリースの間のトレードオフをよりよく実装する。
TBOがキューの長さと遅延をそれぞれ、既存のベースラインと比較して平均で13.78%、14.08%削減することを示す実験が行われた。
さらに,TBOが効率を向上しながら公正性を損なわないことを示すために,右側のジーニ係数を計算する。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Evaluation of Local Planner-Based Stanley Control in Autonomous RC Car Racing Series [0.0]
本稿では,自動RCカーレースの制御手法を提案する。
実際のLiDARポイントクラウド上では、ローカルパスのみを計画している。
1/10サイズのRCカーでテストし、ベースソリューションから実際のF110thレースにおける最適設定までのチューニング手順を示す。
論文 参考訳(メタデータ) (2024-08-27T15:50:31Z) - FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。
本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。
提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-07-25T20:02:57Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Adaptive Frequency Green Light Optimal Speed Advisory based on Hybrid
Actor-Critic Reinforcement Learning [2.257737378757467]
GLOSAシステムは、緑の間隔で交差点を通過するのを助けるために車両に速度を推奨する。
これまでの研究は、GLOSAアルゴリズムの最適化に重点を置いており、スピードアドバイザリーの頻度を無視している。
本稿では,Hybrid Proximal Policy Optimization (H-PPO) に基づく適応周波数GLOSAモデルを提案する。
論文 参考訳(メタデータ) (2023-06-07T01:16:45Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Efficient Pressure: Improving efficiency for signalized intersections [24.917612761503996]
交通信号制御(TSC)の問題を解決するために,強化学習(RL)が注目されている。
既存のRLベースの手法は、計算資源の面でコスト効率が良くなく、従来の手法よりも堅牢ではないため、ほとんどデプロイされない。
我々は,RTLに基づくアプローチに基づいて,トレーニングを減らし,複雑さを低減したTSCの適応制御系を構築する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T13:49:58Z) - Boosted Genetic Algorithm using Machine Learning for traffic control
optimization [4.642759477873937]
本稿では,信号化都市交差点における交通信号タイミングの最適化手法を提案する。
高速かつ信頼性の高い決定を生成することを目的として、高速実行機械学習(ML)アルゴリズムと信頼できる遺伝的アルゴリズム(GA)を組み合わせる。
新たなBGA-MLは,元のGAアルゴリズムよりもはるかに高速であり,非リカレントインシデント条件下でうまく適用可能であることを示す。
論文 参考訳(メタデータ) (2021-03-11T00:39:18Z) - Surrogate-assisted cooperative signal optimization for large-scale
traffic networks [6.223837701805064]
本研究では,サロゲート支援協調信号最適化(SCSO)手法を提案する。
ニューマン・ファスト・アルゴリズムを用いて,分散アルゴリズムを分解器,代理モデル,具体的SCSOアルゴリズムとして修正した。
その有効性と有効性を評価するため、実際の交通ネットワークに基づいて、クロスロードとTジャンクションを含む大規模交通ネットワークを生成する。
論文 参考訳(メタデータ) (2021-03-03T01:03:57Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Reinforcement Learning Based Vehicle-cell Association Algorithm for
Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。
まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。
提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文 参考訳(メタデータ) (2020-01-22T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。