論文の概要: Bayesian Critique-Tune-Based Reinforcement Learning with Adaptive Pressure for Multi-Intersection Traffic Signal Control
- arxiv url: http://arxiv.org/abs/2412.16225v2
- Date: Wed, 25 Dec 2024 08:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:46.042394
- Title: Bayesian Critique-Tune-Based Reinforcement Learning with Adaptive Pressure for Multi-Intersection Traffic Signal Control
- Title(参考訳): 多区間交通信号制御のための適応圧力によるベイズ批判-チューンに基づく強化学習
- Authors: Wenchang Duan, Zhenguo Gao, Jiwan He, Jinguo Xian,
- Abstract要約: 本稿では,多区間信号制御(BCT-APLight)のための適応的圧力を用いた批判-テュンベース強化学習を提案する。
BCT-APLightは、7つの実世界のデータセット上の他の最先端(SOTA)メソッドよりも優れている。
- 参考スコア(独自算出の注目度): 0.5399800035598185
- License:
- Abstract: Adaptive Traffic Signal Control (ATSC) system is a critical component of intelligent transportation, with the capability to significantly alleviate urban traffic congestion. Although reinforcement learning (RL)-based methods have demonstrated promising performance in achieving ATSC, existing methods are still prone to making unreasonable policies. Therefore, this paper proposes a novel Bayesian Critique-Tune-Based Reinforcement Learning with Adaptive Pressure for multi-intersection signal control (BCT-APLight). In BCT-APLight, the Critique-Tune (CT) framework, a two-layer Bayesian structure is designed to refine the excessive trust of RL policies. Specifically, the Bayesian inference-based Critique Layer provides effective evaluations of the credibility of policies; the Bayesian decision-based Tune Layer fine-tunes policies by minimizing the posterior risks when the evaluations are negative. Meanwhile, an attention-based Adaptive Pressure (AP) mechanism is designed to effectively weight the vehicle queues in each lane, thereby enhancing the rationality of traffic movement representation within the network. Equipped with the CT framework and AP mechanism, BCT-APLight effectively enhances the reasonableness of RL policies. Extensive experiments conducted with a simulator across a range of intersection layouts demonstrate that BCT-APLight is superior to other state-of-the-art (SOTA) methods on seven real-world datasets. Specifically, BCT-APLight decreases average queue length by \textbf{\(\boldsymbol{9.60\%}\)} and average waiting time by \textbf{\(\boldsymbol{15.28\%}\)}.
- Abstract(参考訳): アダプティブトラフィック信号制御(ATSC)システムは、都市交通渋滞を著しく緩和する能力を持つインテリジェントトランスポートの重要な構成要素である。
強化学習(RL)に基づく手法は,ATSCの実現に有望な性能を示したが,既存の手法はいまだに不合理な政策を立てる傾向にある。
そこで本稿では,多区間信号制御のための適応圧力によるベイズ批判-チューンに基づく強化学習を提案する。
BCT-APLight(Crytique-Tune (CT) フレームワーク)では、RLポリシーの過剰な信頼を向上するために、2層ベイズ構造が設計されている。
具体的には、ベイズ的推論に基づく批判層は、政策の信頼性を効果的に評価し、ベイズ的決定に基づくチューン層は、評価が負の場合に後方リスクを最小化する。
一方、アダプティブ・プレッシャ(AP)機構は、各車線内の車両待ち行列を効果的に重み付けし、ネットワーク内の交通移動表現の合理性を高めるように設計されている。
CTフレームワークとAP機構を備えたBCT-APLightは、RLポリシーの妥当性を効果的に向上させる。
BCT-APLightは、7つの実世界のデータセット上の他の最先端(SOTA)手法よりも優れていることを示す。
具体的には、BCT-APLightは、平均キュー長を \textbf{\(\boldsymbol{9.60\%}\)} で、平均待ち時間は \textbf{\(\boldsymbol{15.28\%}\)} で減少させる。
関連論文リスト
- Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport [45.793758222754036]
拡散政策は、デモから複雑な振る舞いを学ぶ際に有望であることを示している。
本稿では,環境とのオンラインインタラクションによる拡散型模倣学習モデルの改善について検討する。
最適輸送理論を用いた拡散ポリシをRLと統合する新しい手法OTPRを提案する。
論文 参考訳(メタデータ) (2025-02-18T08:22:20Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - DenseLight: Efficient Control for Large-scale Traffic Signals with Dense
Feedback [109.84667902348498]
交通信号制御(TSC)は、道路網における車両の平均走行時間を短縮することを目的としている。
従来のTSC手法は、深い強化学習を利用して制御ポリシーを探索する。
DenseLightは、不偏報酬関数を用いてポリシーの有効性をフィードバックする新しいRTLベースのTSC手法である。
論文 参考訳(メタデータ) (2023-06-13T05:58:57Z) - Lyapunov Function Consistent Adaptive Network Signal Control with Back
Pressure and Reinforcement Learning [9.797994846439527]
本研究では、それぞれ特定のリャプノフ関数を定義するリアプノフ制御理論を用いた統一的なフレームワークを提案する。
Lyapunov理論の知見に基づいて、この研究は強化学習(Reinforcement Learning, RL)に基づくネットワーク信号制御のための報酬関数を設計する。
提案アルゴリズムは, 純旅客車流および貨物を含む異種交通流下での従来のRL法およびRL法と比較した。
論文 参考訳(メタデータ) (2022-10-06T00:22:02Z) - Efficient Pressure: Improving efficiency for signalized intersections [24.917612761503996]
交通信号制御(TSC)の問題を解決するために,強化学習(RL)が注目されている。
既存のRLベースの手法は、計算資源の面でコスト効率が良くなく、従来の手法よりも堅牢ではないため、ほとんどデプロイされない。
我々は,RTLに基づくアプローチに基づいて,トレーニングを減らし,複雑さを低減したTSCの適応制御系を構築する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T13:49:58Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-01T02:14:01Z) - Federated Learning on the Road: Autonomous Controller Design for
Connected and Autonomous Vehicles [109.71532364079711]
CAV(コネクテッド・アンド・自律車両)の自律制御設計のための新しい統合学習(FL)フレームワークの提案
CAVの移動性、無線フェーディングチャネル、および不均衡で非独立で同一に分散されたデータを考慮に入れた新しい動的フェデレーション・プロキシ(DFP)アルゴリズムが提案されている。
最適制御器を用いてCAVがどの程度の速度で収束するかを同定するために,提案アルゴリズムに対して厳密な収束解析を行う。
論文 参考訳(メタデータ) (2021-02-05T19:57:47Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Non-recurrent Traffic Congestion Detection with a Coupled Scalable
Bayesian Robust Tensor Factorization Model [5.141309607968161]
非リカレント交通渋滞(NRTC)は通常、通勤者に予期せぬ遅れをもたらす。
NRTCをリアルタイムに正確に検出し、認識することが重要である。
論文 参考訳(メタデータ) (2020-05-10T03:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。