論文の概要: Data Might be Enough: Bridge Real-World Traffic Signal Control Using
Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.10828v1
- Date: Mon, 20 Mar 2023 02:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:58:28.256447
- Title: Data Might be Enough: Bridge Real-World Traffic Signal Control Using
Offline Reinforcement Learning
- Title(参考訳): データだけで十分かもしれない:オフライン強化学習による現実世界の交通信号制御
- Authors: Liang Zhang, Jianming Deng
- Abstract要約: 交通信号制御(TSC)への強化学習が有望なソリューションとなっている。
環境との相互作用を必要とするオンラインRLベースの手法は、実環境との相互作用に制限される。
これらの課題に対処するために,(1)一般的な実世界のシナリオに基づいて設計された循環型オフラインデータセット(COD),(2)CODから満足度の高い制御戦略を学習可能なDataLightと呼ばれるオフラインRLモデル,(3)ほとんどのRLベースの手法を循環型信号制御に変換するArbitrary To Cyclical(ATC)を提案する。
- 参考スコア(独自算出の注目度): 3.276435438007766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying reinforcement learning (RL) to traffic signal control (TSC) has
become a promising solution. However, most RL-based methods focus solely on
optimization within simulators and give little thought to deployment issues in
the real world. Online RL-based methods, which require interaction with the
environment, are limited in their interactions with the real-world environment.
Additionally, acquiring an offline dataset for offline RL is challenging in the
real world. Moreover, most real-world intersections prefer a cyclical phase
structure. To address these challenges, we propose: (1) a cyclical offline
dataset (COD), designed based on common real-world scenarios to facilitate easy
collection; (2) an offline RL model called DataLight, capable of learning
satisfactory control strategies from the COD; and (3) a method called Arbitrary
To Cyclical (ATC), which can transform most RL-based methods into cyclical
signal control. Extensive experiments using real-world datasets on simulators
demonstrate that: (1) DataLight outperforms most existing methods and achieves
comparable results with the best-performing method; (2) introducing ATC into
some recent RL-based methods achieves satisfactory performance; and (3) COD is
reliable, with DataLight remaining robust even with a small amount of data.
These results suggest that the cyclical offline dataset might be enough for
offline RL for TSC. Our proposed methods make significant contributions to the
TSC field and successfully bridge the gap between simulation experiments and
real-world applications. Our code is released on Github.
- Abstract(参考訳): 交通信号制御(TSC)への強化学習(RL)の適用は有望な解決策となっている。
しかし、ほとんどのRLベースの手法はシミュレーター内の最適化にのみ焦点をあてており、現実世界でのデプロイメントの問題はほとんど考えていない。
環境との相互作用を必要とするオンラインRLベースの手法は、実環境との相互作用に制限される。
さらに、オフラインRL用のオフラインデータセットを取得することは、現実世界では難しい。
さらに、実世界のほとんどの交叉は周期的位相構造を好む。
これらの課題に対処するために,(1)一般的な実世界のシナリオに基づいて設計された循環型オフラインデータセット(COD),(2)CODから満足度の高い制御戦略を学習可能なDataLightと呼ばれるオフラインRLモデル,(3)ほとんどのRLベースの手法を循環型信号制御に変換するArbitrary To Cyclical(ATC)を提案する。
シミュレータ上の実世界のデータセットを用いた広範囲な実験は、(1)データライトが既存の手法を上回り、最高のパフォーマンスの手法と同等の結果が得られること、(2)最近のrlベースの手法にatcを導入することで十分な性能が得られること、(3)codは信頼性があり、少量のデータでもデータライトは堅牢である。
これらの結果から,周期的オフラインデータセットはTSCのオフラインRLに十分である可能性が示唆された。
提案手法はTSC分野に多大な貢献をし,シミュレーション実験と実世界の応用のギャップを埋めることに成功した。
私たちのコードはgithubでリリースされています。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Traffic Signal Control Using Lightweight Transformers: An
Offline-to-Online RL Approach [6.907105812732423]
我々は,オフラインで容易にアクセス可能なデータセットからポリシーを学習可能な,軽量な決定変換方式DTLightを提案する。
オフラインデータセット上で純粋に事前トレーニングされたDTLightは、ほとんどのシナリオで最先端のオンラインRLベースのメソッドより優れている。
実験の結果、オンラインの微調整により、最高のオンラインRLベースラインメソッドよりもDTLightのパフォーマンスが42.6%向上することが示された。
論文 参考訳(メタデータ) (2023-12-12T23:21:57Z) - A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning [18.2541182874636]
現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。
我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
論文 参考訳(メタデータ) (2023-11-27T15:29:21Z) - Learning to Control Autonomous Fleets from Observation via Offline
Reinforcement Learning [3.9121134770873733]
オフライン強化学習のレンズによる自律移動システム制御の形式化を提案する。
オフラインRLは、経済的にクリティカルなシステムにおいて、RLベースのソリューションを適用する上で有望なパラダイムであることを示す。
論文 参考訳(メタデータ) (2023-02-28T18:31:07Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - TL-GAN: Improving Traffic Light Recognition via Data Synthesis for
Autonomous Driving [8.474436072102844]
本稿では,交通信号の自律運転における音声認識を改善するために,レアクラスのデータを合成するための新しい交通信号生成手法TL-GANを提案する。
画像合成段階では、条件付き生成により、生成したトラフィック光画像の色を完全に制御できる。
シーケンス組み立て段階では、現実的で多様なトラフィック光シーケンスを合成するためのスタイル混合および適応テンプレートを設計する。
論文 参考訳(メタデータ) (2022-03-28T18:12:35Z) - ModelLight: Model-Based Meta-Reinforcement Learning for Traffic Signal
Control [5.219291917441908]
本稿では,交通信号制御のためのモデルベースメタ強化学習フレームワーク(ModelLight)を提案する。
ModelLight内では、道路交差点のためのモデルのアンサンブルと最適化に基づくメタラーニング法を用いて、RLベースのトラヒックライト制御方式のデータ効率を改善する。
実世界のデータセットの実験では、ModelLightが最先端のトラヒックライト制御アルゴリズムより優れていることが示されている。
論文 参考訳(メタデータ) (2021-11-15T20:25:08Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Deep traffic light detection by overlaying synthetic context on
arbitrary natural images [49.592798832978296]
深部交通光検出器のための人工的な交通関連トレーニングデータを生成する手法を提案する。
このデータは、任意の画像背景の上に偽のトラフィックシーンをブレンドするために、基本的な非現実的なコンピュータグラフィックスを用いて生成される。
また、交通信号データセットの本質的なデータ不均衡問題にも対処し、主に黄色い状態のサンプルの少なさによって引き起こされる。
論文 参考訳(メタデータ) (2020-11-07T19:57:22Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。