論文の概要: A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.15920v1
- Date: Mon, 27 Nov 2023 15:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:40:55.300419
- Title: A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習を用いたリアルタイム交通信号制御のための完全データ駆動アプローチ
- Authors: Jianxiong Li, Shichao Lin, Tianyu Shi, Chujie Tian, Yu Mei, Jian Song,
Xianyuan Zhan, Ruimin Li
- Abstract要約: 現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。
我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
- 参考スコア(独自算出の注目度): 18.2541182874636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimization of traffic signal control (TSC) is critical for an efficient
transportation system. In recent years, reinforcement learning (RL) techniques
have emerged as a popular approach for TSC and show promising results for
highly adaptive control. However, existing RL-based methods suffer from notably
poor real-world applicability and hardly have any successful deployments. The
reasons for such failures are mostly due to the reliance on over-idealized
traffic simulators for policy optimization, as well as using unrealistic
fine-grained state observations and reward signals that are not directly
obtainable from real-world sensors. In this paper, we propose a fully
Data-Driven and simulator-free framework for realistic Traffic Signal Control
(D2TSC). Specifically, we combine well-established traffic flow theory with
machine learning to construct a reward inference model to infer the reward
signals from coarse-grained traffic data. With the inferred rewards, we further
propose a sample-efficient offline RL method to enable direct signal control
policy learning from historical offline datasets of real-world intersections.
To evaluate our approach, we collect historical traffic data from a real-world
intersection, and develop a highly customized simulation environment that
strictly follows real data characteristics. We demonstrate through extensive
experiments that our approach achieves superior performance over conventional
and offline RL baselines, and also enjoys much better real-world applicability.
- Abstract(参考訳): 交通信号制御(TSC)の最適化は,効率的な交通システムにとって重要である。
近年、強化学習(RL)技術がTSCの一般的なアプローチとして登場し、高度適応制御のための有望な結果を示している。
しかし、既存のrlベースのメソッドは、実際の適用性が著しく悪く、デプロイが成功しない。
このような失敗の原因は、政策最適化のために過度に理想化された交通シミュレータに依存することや、現実世界のセンサーから直接取得できない非現実的なきめ細かい状態観測や報奨信号を使用することにある。
本稿では,リアルタイム信号制御(D2TSC)のための完全データ駆動型シミュレータフリーフレームワークを提案する。
具体的には、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する報酬推論モデルを構築する。
さらに,実世界の交差点の過去のオフラインデータセットから直接信号制御ポリシーを学習するための,サンプル効率のよいオフラインRL手法を提案する。
本手法を評価するために,実世界の交差点から過去のトラヒックデータを収集し,実データ特性を厳密に追従する高度にカスタマイズされたシミュレーション環境を構築する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現するとともに,実世界の適用性も向上することを示す。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning [38.63187494867502]
我々は、返却条件付きオフライン強化学習を利用して、制御可能なトラフィックエージェントを効率的に生成するCtRL-Simを提案する。
具体的には、物理学的なNocturneシミュレータを通して実世界の運転データを処理し、多様なオフライン強化学習データセットを生成する。
このデータセットを用いて、エージェントの振る舞いのきめ細かい操作を可能にする、返却条件付きマルチエージェント動作モデルをトレーニングする。
論文 参考訳(メタデータ) (2024-03-29T02:10:19Z) - A Holistic Framework Towards Vision-based Traffic Signal Control with
Microscopic Simulation [53.39174966020085]
交通信号制御(TSC)は交通渋滞を低減し、交通の流れを円滑にし、アイドリング時間を短縮し、CO2排出量を減らすために重要である。
本研究では,道路交通の流れを視覚的観察によって調節するTSCのコンピュータビジョンアプローチについて検討する。
我々は、視覚ベースのTSCとそのベンチマークに向けて、TrafficDojoと呼ばれる総合的なトラフィックシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-11T16:42:29Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Learning Realistic Traffic Agents in Closed-loop [36.38063449192355]
強化学習(RL)は、違反を避けるために交通エージェントを訓練することができるが、RLのみを使用することで非人間的な運転行動をもたらす。
本稿では,交通規制制約の下で,専門家による実演と一致させるためにRTR(Reinforce Traffic Rules)を提案する。
実験の結果,RTRはより現実的で一般化可能な交通シミュレーションポリシーを学習することがわかった。
論文 参考訳(メタデータ) (2023-11-02T16:55:23Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven
Reinforcement Learning [52.49786369812919]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z) - Reinforcement Learning Approaches for Traffic Signal Control under
Missing Data [5.896742981602458]
現実世界の都市では、センサーの欠如により交通状態の観察が欠如することがある。
本稿では, 適応制御を実現するために, トラフィック状態をインプットし, 適応制御とRLエージェントの訓練を可能にするために, 状態と報酬の両方をインプットする2つの方法を提案する。
論文 参考訳(メタデータ) (2023-04-21T03:26:33Z) - Traffic Management of Autonomous Vehicles using Policy Based Deep
Reinforcement Learning and Intelligent Routing [0.26249027950824505]
本稿では,交差点の混雑状況に応じて交通信号を調整するDRLに基づく信号制御システムを提案する。
交差点の後方の道路での渋滞に対処するため,道路ネットワーク上で車両のバランスをとるために再ルート手法を用いた。
論文 参考訳(メタデータ) (2022-06-28T02:46:20Z) - ModelLight: Model-Based Meta-Reinforcement Learning for Traffic Signal
Control [5.219291917441908]
本稿では,交通信号制御のためのモデルベースメタ強化学習フレームワーク(ModelLight)を提案する。
ModelLight内では、道路交差点のためのモデルのアンサンブルと最適化に基づくメタラーニング法を用いて、RLベースのトラヒックライト制御方式のデータ効率を改善する。
実世界のデータセットの実験では、ModelLightが最先端のトラヒックライト制御アルゴリズムより優れていることが示されている。
論文 参考訳(メタデータ) (2021-11-15T20:25:08Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。