論文の概要: CFLight: Enhancing Safety with Traffic Signal Control through Counterfactual Learning
- arxiv url: http://arxiv.org/abs/2512.09368v2
- Date: Tue, 16 Dec 2025 02:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.913843
- Title: CFLight: Enhancing Safety with Traffic Signal Control through Counterfactual Learning
- Title(参考訳): CFLight: 対人学習による交通信号制御による安全性向上
- Authors: Mingyuan Li, Chunyu Liu, Zhuojun Li, Xiao Liu, Guangsheng Yu, Bo Du, Jun Shen, Qiang Wu,
- Abstract要約: 交通信号制御(TSC)は,都市部における安全確保に有効な戦略である。
TSCの最適化における強化学習(Reinforcement Learning, RL)手法の普及にもかかわらず、これらの手法は安全よりも運転効率を優先することが多い。
CounterFactual (CF) 学習は様々な因果解析分野において有望な手法である。
- 参考スコア(独自算出の注目度): 35.722353687827
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traffic accidents result in millions of injuries and fatalities globally, with a significant number occurring at intersections each year. Traffic Signal Control (TSC) is an effective strategy for enhancing safety at these urban junctures. Despite the growing popularity of Reinforcement Learning (RL) methods in optimizing TSC, these methods often prioritize driving efficiency over safety, thus failing to address the critical balance between these two aspects. Additionally, these methods usually need more interpretability. CounterFactual (CF) learning is a promising approach for various causal analysis fields. In this study, we introduce a novel framework to improve RL for safety aspects in TSC. This framework introduces a novel method based on CF learning to address the question: ``What if, when an unsafe event occurs, we backtrack to perform alternative actions, and will this unsafe event still occur in the subsequent period?'' To answer this question, we propose a new structure causal model to predict the result after executing different actions, and we propose a new CF module that integrates with additional ``X'' modules to promote safe RL practices. Our new algorithm, CFLight, which is derived from this framework, effectively tackles challenging safety events and significantly improves safety at intersections through a near-zero collision control strategy. Through extensive numerical experiments on both real-world and synthetic datasets, we demonstrate that CFLight reduces collisions and improves overall traffic performance compared to conventional RL methods and the recent safe RL model. Moreover, our method represents a generalized and safe framework for RL methods, opening possibilities for applications in other domains. The data and code are available in the github https://github.com/AdvancedAI-ComplexSystem/SmartCity/tree/main/CFLight.
- Abstract(参考訳): 交通事故は世界中で何百万もの負傷者や死亡者をもたらし、毎年交差点でかなりの数の事故が発生している。
交通信号制御(TSC)は,これらの都市部における安全確保に有効な戦略である。
TSCの最適化における強化学習(Reinforcement Learning, RL)手法の人気が高まっているにもかかわらず、これらの手法は安全性よりも運転効率を優先することが多く、この2つの側面の致命的なバランスに対処することができない。
加えて、これらの手法は一般的により解釈可能性を必要とする。
CounterFactual (CF) 学習は様々な因果解析分野において有望な手法である。
本研究では,RTLの安全性向上のための新しいフレームワークを提案する。
このフレームワークは、CF学習に基づいた新しい手法を導入して、問題に対処する。 ``もし安全でないイベントが発生したら、代替アクションを実行するためにバックトラックし、この安全でないイベントは、次の期間に起こるのだろうか?' この質問に答えるために、我々は、異なるアクションを実行した後の結果を予測する新しい構造因果モデルを提案し、安全なRLプラクティスを促進するために ``X''モジュールを統合する新しいCFモジュールを提案する。
このフレームワークから得られた新しいアルゴリズムCFLightは、効果的に挑戦する安全イベントに取り組み、ほぼゼロに近い衝突制御戦略により交差点の安全性を著しく向上する。
実世界のデータセットと合成データセットの両方に関する広範な数値実験を通して、CFLightは従来のRL法や最近の安全なRLモデルと比較して衝突を低減し、全体の交通性能を向上させることを実証した。
さらに,本手法はRL手法の汎用的かつ安全なフレームワークであり,他の領域の応用の可能性を開く。
データとコードはgithub https://github.com/AdvancedAI-ComplexSystem/SmartCity/tree/main/CFLightで入手できる。
関連論文リスト
- Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models [24.168387024091082]
人間の好みに基づく微調整型大規模言語モデル(LLM)は,その性能向上に有効である。
微調整プロセスを通して安全性を維持することは、依然として大きな課題である。
トレーニングデータが少ない場合でも安全性を向上する平衡RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:40:30Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - SafeLight: A Reinforcement Learning Method toward Collision-free Traffic
Signal Control [5.862792724739738]
アメリカの道路事故の4分の1は、信号のタイミングの問題により交差点で発生している。
安全強化強化学習法(SafeLight)を提案する。
本手法は交通の移動性を高めながら衝突を著しく低減することができる。
論文 参考訳(メタデータ) (2022-11-20T05:09:12Z) - Safe Model-Based Reinforcement Learning Using Robust Control Barrier
Functions [43.713259595810854]
安全に対処する一般的なアプローチとして、安全層が追加され、RLアクションを安全な一連のアクションに投影する。
本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
論文 参考訳(メタデータ) (2021-10-11T17:00:45Z) - Safe Reinforcement Learning Using Robust Action Governor [6.833157102376731]
Reinforcement Learning(RL)は、基本的に試行錯誤学習の手順であり、探索と探索プロセス中に安全でない行動を引き起こす可能性があります。
本論文では, RLアルゴリズムとアドオン安全監視モジュールの統合に基づく安全RLの枠組みについて紹介する。
自動車用アダプティブクルーズ制御への適用を通じて,提案された安全RLフレームワークを例示する。
論文 参考訳(メタデータ) (2021-02-21T16:50:17Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。