論文の概要: Data Might be Enough: Bridge Real-World Traffic Signal Control Using
Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.10828v1
- Date: Mon, 20 Mar 2023 02:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:58:28.256447
- Title: Data Might be Enough: Bridge Real-World Traffic Signal Control Using
Offline Reinforcement Learning
- Title(参考訳): データだけで十分かもしれない:オフライン強化学習による現実世界の交通信号制御
- Authors: Liang Zhang, Jianming Deng
- Abstract要約: 交通信号制御(TSC)への強化学習が有望なソリューションとなっている。
環境との相互作用を必要とするオンラインRLベースの手法は、実環境との相互作用に制限される。
これらの課題に対処するために,(1)一般的な実世界のシナリオに基づいて設計された循環型オフラインデータセット(COD),(2)CODから満足度の高い制御戦略を学習可能なDataLightと呼ばれるオフラインRLモデル,(3)ほとんどのRLベースの手法を循環型信号制御に変換するArbitrary To Cyclical(ATC)を提案する。
- 参考スコア(独自算出の注目度): 3.276435438007766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying reinforcement learning (RL) to traffic signal control (TSC) has
become a promising solution. However, most RL-based methods focus solely on
optimization within simulators and give little thought to deployment issues in
the real world. Online RL-based methods, which require interaction with the
environment, are limited in their interactions with the real-world environment.
Additionally, acquiring an offline dataset for offline RL is challenging in the
real world. Moreover, most real-world intersections prefer a cyclical phase
structure. To address these challenges, we propose: (1) a cyclical offline
dataset (COD), designed based on common real-world scenarios to facilitate easy
collection; (2) an offline RL model called DataLight, capable of learning
satisfactory control strategies from the COD; and (3) a method called Arbitrary
To Cyclical (ATC), which can transform most RL-based methods into cyclical
signal control. Extensive experiments using real-world datasets on simulators
demonstrate that: (1) DataLight outperforms most existing methods and achieves
comparable results with the best-performing method; (2) introducing ATC into
some recent RL-based methods achieves satisfactory performance; and (3) COD is
reliable, with DataLight remaining robust even with a small amount of data.
These results suggest that the cyclical offline dataset might be enough for
offline RL for TSC. Our proposed methods make significant contributions to the
TSC field and successfully bridge the gap between simulation experiments and
real-world applications. Our code is released on Github.
- Abstract(参考訳): 交通信号制御(TSC)への強化学習(RL)の適用は有望な解決策となっている。
しかし、ほとんどのRLベースの手法はシミュレーター内の最適化にのみ焦点をあてており、現実世界でのデプロイメントの問題はほとんど考えていない。
環境との相互作用を必要とするオンラインRLベースの手法は、実環境との相互作用に制限される。
さらに、オフラインRL用のオフラインデータセットを取得することは、現実世界では難しい。
さらに、実世界のほとんどの交叉は周期的位相構造を好む。
これらの課題に対処するために,(1)一般的な実世界のシナリオに基づいて設計された循環型オフラインデータセット(COD),(2)CODから満足度の高い制御戦略を学習可能なDataLightと呼ばれるオフラインRLモデル,(3)ほとんどのRLベースの手法を循環型信号制御に変換するArbitrary To Cyclical(ATC)を提案する。
シミュレータ上の実世界のデータセットを用いた広範囲な実験は、(1)データライトが既存の手法を上回り、最高のパフォーマンスの手法と同等の結果が得られること、(2)最近のrlベースの手法にatcを導入することで十分な性能が得られること、(3)codは信頼性があり、少量のデータでもデータライトは堅牢である。
これらの結果から,周期的オフラインデータセットはTSCのオフラインRLに十分である可能性が示唆された。
提案手法はTSC分野に多大な貢献をし,シミュレーション実験と実世界の応用のギャップを埋めることに成功した。
私たちのコードはgithubでリリースされています。
関連論文リスト
- Traffic Signal Control Using Lightweight Transformers: An
Offline-to-Online RL Approach [6.907105812732423]
我々は,オフラインで容易にアクセス可能なデータセットからポリシーを学習可能な,軽量な決定変換方式DTLightを提案する。
オフラインデータセット上で純粋に事前トレーニングされたDTLightは、ほとんどのシナリオで最先端のオンラインRLベースのメソッドより優れている。
実験の結果、オンラインの微調整により、最高のオンラインRLベースラインメソッドよりもDTLightのパフォーマンスが42.6%向上することが示された。
論文 参考訳(メタデータ) (2023-12-12T23:21:57Z) - A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning [18.2541182874636]
現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。
我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
論文 参考訳(メタデータ) (2023-11-27T15:29:21Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Look Beneath the Surface: Exploiting Fundamental Symmetry for
Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文 参考訳(メタデータ) (2023-06-07T07:51:05Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Offline Reinforcement Learning for Road Traffic Control [12.251816544079306]
モデルベースの学習フレームワークであるA-DACを構築し、データ不確実性に対処するために、悲観的なコストを組み込んだデータセットからマルコフ決定プロセス(MDP)を推論する。
A-DACは、サイズやバッチ収集ポリシーによって異なる複数のデータセットを用いて、複雑な信号化ラウンドアバウトで評価される。
論文 参考訳(メタデータ) (2022-01-07T09:55:21Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。