Fugu-MT 論文翻訳(概要): Reinforcement learning for traffic signal control in hybrid action space

論文の概要: Reinforcement learning for traffic signal control in hybrid action space

arxiv url: http://arxiv.org/abs/2211.12956v2
Date: Fri, 25 Nov 2022 10:36:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 12:08:30.217682
Title: Reinforcement learning for traffic signal control in hybrid action space
Title（参考訳）: ハイブリッド行動空間における交通信号制御のための強化学習
Authors: Haoqing Luo, sheng jin
Abstract要約: 本稿では,ハイブリッドポリシ最適化に基づく新しい交通信号制御アーキテクチャを提案する。我々の知る限り、TBOは、ステージングと期間の同期最適化を実装する最初のRLベースのアルゴリズムである。
参考スコア（独自算出の注目度）: 5.923546495419043
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The prevailing reinforcement-learning-based traffic signal control methods are typically staging-optimizable or duration-optimizable, depending on the action spaces. In this paper, we propose a novel control architecture, TBO, which is based on hybrid proximal policy optimization. To the best of our knowledge, TBO is the first RL-based algorithm to implement synchronous optimization of the staging and duration. Compared to discrete and continuous action spaces, hybrid action space is a merged search space, in which TBO better implements the trade-off between frequent switching and unsaturated release. Experiments are given to demonstrate that TBO reduces the queue length and delay by 13.78% and 14.08% on average, respectively, compared to the existing baselines. Furthermore, we calculate the Gini coefficients of the right-of-way to indicate TBO does not harm fairness while improving efficiency.
Abstract（参考訳）: 一般的な強化学習に基づくトラヒック信号制御手法は、通常、動作空間に応じてステージング最適化または持続時間最適化である。本稿では,ハイブリッドな近位政策最適化に基づく新しい制御アーキテクチャtboを提案する。我々の知る限り、TBOは、ステージングと期間の同期最適化を実装する最初のRLベースのアルゴリズムである。離散的かつ連続的なアクション空間と比較して、ハイブリッドアクション空間は統合された検索空間であり、TBOは頻繁なスイッチングと不飽和なリリースの間のトレードオフをよりよく実装する。 TBOがキューの長さと遅延をそれぞれ、既存のベースラインと比較して平均で13.78%、14.08%削減することを示す実験が行われた。さらに,TBOが効率を向上しながら公正性を損なわないことを示すために,右側のジーニ係数を計算する。

関連論文リスト

Optimizing Multi-Lane Intersection Performance in Mixed Autonomy Environments [0.0]
本稿では,グラフ注意ネットワーク(GAT)とSoft Actor-Critic(SAC)強化学習を組み合わせた新しい交通信号制御フレームワークを提案する。提案したSACは、エントロピー最適化決定による適応的な信号制御を可能にする頑健な非政治強化学習アルゴリズムである。実験の結果,従来の手法と比較して平均遅延時間を24.1%削減し,トラフィック違反を29.2%減少させることにより,GAT-SACアプローチの有効性を示した。
論文参考訳（メタデータ） (2025-11-04T03:10:47Z)
Reinforcement Learning Based Traffic Signal Design to Minimize Queue Lengths [15.439906983758808]
本稿では、RL(Reinforcement Learning)を活用して全信号位相の待ち行列長を最小化する適応型TSCフレームワークを提案する。提案アルゴリズムは,都市交通シミュレータ(SUMO)を用いて実装されている。最も優れた構成は、従来のWebster法と比較して平均キュー長を約29%削減する。
論文参考訳（メタデータ） (2025-09-26T01:23:30Z)
Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文参考訳（メタデータ） (2025-05-29T19:59:18Z)
Joint Optimal Transport and Embedding for Network Alignment [66.49765320358361]
本稿では,JOENA というネットワークアライメントのための統合最適トランスポートおよび埋め込みフレームワークを提案する。統一された目的により、両手法の相互利益は、コンバージェンスを保証する最適化スキーマの交互化によって達成できる。実世界のネットワークの実験はJOENAの有効性とスケーラビリティを検証し、最大16%の改善と20倍の高速化を実現した。
論文参考訳（メタデータ） (2025-02-26T17:28:08Z)
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。 WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文参考訳（メタデータ） (2024-10-28T04:47:39Z)
Evaluation of Local Planner-Based Stanley Control in Autonomous RC Car Racing Series [0.0]
本稿では,自動RCカーレースの制御手法を提案する。実際のLiDARポイントクラウド上では、ローカルパスのみを計画している。 1/10サイズのRCカーでテストし、ベースソリューションから実際のF110thレースにおける最適設定までのチューニング手順を示す。
論文参考訳（メタデータ） (2024-08-27T15:50:31Z)
FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2024-07-25T20:02:57Z)
Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文参考訳（メタデータ） (2023-07-31T13:02:36Z)
Adaptive Frequency Green Light Optimal Speed Advisory based on Hybrid Actor-Critic Reinforcement Learning [2.257737378757467]
GLOSAシステムは、緑の間隔で交差点を通過するのを助けるために車両に速度を推奨する。これまでの研究は、GLOSAアルゴリズムの最適化に重点を置いており、スピードアドバイザリーの頻度を無視している。本稿では,Hybrid Proximal Policy Optimization (H-PPO) に基づく適応周波数GLOSAモデルを提案する。
論文参考訳（メタデータ） (2023-06-07T01:16:45Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
Efficient Pressure: Improving efficiency for signalized intersections [24.917612761503996]
交通信号制御(TSC)の問題を解決するために,強化学習(RL)が注目されている。既存のRLベースの手法は、計算資源の面でコスト効率が良くなく、従来の手法よりも堅牢ではないため、ほとんどデプロイされない。我々は,RTLに基づくアプローチに基づいて,トレーニングを減らし,複雑さを低減したTSCの適応制御系を構築する方法を示す。
論文参考訳（メタデータ） (2021-12-04T13:49:58Z)
Boosted Genetic Algorithm using Machine Learning for traffic control optimization [4.642759477873937]
本稿では,信号化都市交差点における交通信号タイミングの最適化手法を提案する。高速かつ信頼性の高い決定を生成することを目的として、高速実行機械学習(ML)アルゴリズムと信頼できる遺伝的アルゴリズム(GA)を組み合わせる。新たなBGA-MLは,元のGAアルゴリズムよりもはるかに高速であり,非リカレントインシデント条件下でうまく適用可能であることを示す。
論文参考訳（メタデータ） (2021-03-11T00:39:18Z)
Surrogate-assisted cooperative signal optimization for large-scale traffic networks [6.223837701805064]
本研究では,サロゲート支援協調信号最適化(SCSO)手法を提案する。ニューマン・ファスト・アルゴリズムを用いて,分散アルゴリズムを分解器,代理モデル,具体的SCSOアルゴリズムとして修正した。その有効性と有効性を評価するため、実際の交通ネットワークに基づいて、クロスロードとTジャンクションを含む大規模交通ネットワークを生成する。
論文参考訳（メタデータ） (2021-03-03T01:03:57Z)
Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文参考訳（メタデータ） (2020-10-30T22:06:05Z)
Reinforcement Learning Based Vehicle-cell Association Algorithm for Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文参考訳（メタデータ） (2020-01-22T08:51:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。