Fugu-MT 論文翻訳(概要): Data Might be Enough: Bridge Real-World Traffic Signal Control Using Offline Reinforcement Learning

論文の概要: Data Might be Enough: Bridge Real-World Traffic Signal Control Using Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2303.10828v1
Date: Mon, 20 Mar 2023 02:02:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-21 16:58:28.256447
Title: Data Might be Enough: Bridge Real-World Traffic Signal Control Using Offline Reinforcement Learning
Title（参考訳）: データだけで十分かもしれない:オフライン強化学習による現実世界の交通信号制御
Authors: Liang Zhang, Jianming Deng
Abstract要約: 交通信号制御(TSC)への強化学習が有望なソリューションとなっている。環境との相互作用を必要とするオンラインRLベースの手法は、実環境との相互作用に制限される。これらの課題に対処するために,(1)一般的な実世界のシナリオに基づいて設計された循環型オフラインデータセット(COD),(2)CODから満足度の高い制御戦略を学習可能なDataLightと呼ばれるオフラインRLモデル,(3)ほとんどのRLベースの手法を循環型信号制御に変換するArbitrary To Cyclical(ATC)を提案する。
参考スコア（独自算出の注目度）: 3.276435438007766
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Applying reinforcement learning (RL) to traffic signal control (TSC) has become a promising solution. However, most RL-based methods focus solely on optimization within simulators and give little thought to deployment issues in the real world. Online RL-based methods, which require interaction with the environment, are limited in their interactions with the real-world environment. Additionally, acquiring an offline dataset for offline RL is challenging in the real world. Moreover, most real-world intersections prefer a cyclical phase structure. To address these challenges, we propose: (1) a cyclical offline dataset (COD), designed based on common real-world scenarios to facilitate easy collection; (2) an offline RL model called DataLight, capable of learning satisfactory control strategies from the COD; and (3) a method called Arbitrary To Cyclical (ATC), which can transform most RL-based methods into cyclical signal control. Extensive experiments using real-world datasets on simulators demonstrate that: (1) DataLight outperforms most existing methods and achieves comparable results with the best-performing method; (2) introducing ATC into some recent RL-based methods achieves satisfactory performance; and (3) COD is reliable, with DataLight remaining robust even with a small amount of data. These results suggest that the cyclical offline dataset might be enough for offline RL for TSC. Our proposed methods make significant contributions to the TSC field and successfully bridge the gap between simulation experiments and real-world applications. Our code is released on Github.
Abstract（参考訳）: 交通信号制御(TSC)への強化学習(RL)の適用は有望な解決策となっている。しかし、ほとんどのRLベースの手法はシミュレーター内の最適化にのみ焦点をあてており、現実世界でのデプロイメントの問題はほとんど考えていない。環境との相互作用を必要とするオンラインRLベースの手法は、実環境との相互作用に制限される。さらに、オフラインRL用のオフラインデータセットを取得することは、現実世界では難しい。さらに、実世界のほとんどの交叉は周期的位相構造を好む。これらの課題に対処するために,(1)一般的な実世界のシナリオに基づいて設計された循環型オフラインデータセット(COD),(2)CODから満足度の高い制御戦略を学習可能なDataLightと呼ばれるオフラインRLモデル,(3)ほとんどのRLベースの手法を循環型信号制御に変換するArbitrary To Cyclical(ATC)を提案する。シミュレータ上の実世界のデータセットを用いた広範囲な実験は、(1)データライトが既存の手法を上回り、最高のパフォーマンスの手法と同等の結果が得られること、(2)最近のrlベースの手法にatcを導入することで十分な性能が得られること、(3)codは信頼性があり、少量のデータでもデータライトは堅牢である。これらの結果から,周期的オフラインデータセットはTSCのオフラインRLに十分である可能性が示唆された。提案手法はTSC分野に多大な貢献をし,シミュレーション実験と実世界の応用のギャップを埋めることに成功した。私たちのコードはgithubでリリースされています。

関連論文リスト

Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文参考訳（メタデータ） (2025-02-11T20:31:59Z)
OffLight: An Offline Multi-Agent Reinforcement Learning Framework for Traffic Signal Control [1.2540429019617183]
我々は、TSCデータセットにおける異種行動ポリシーを処理するために設計された新しいオフラインMARLフレームワークであるOffLightを紹介する。 OffLightは、分散シフトの修正にImportance Smpling(IS)、高品質なエクスペリエンスにフォーカスするためにReturn-Based Prioritized Smpling(RBPS)を組み込んでいる。 OffLightは既存のオフラインRL手法よりも優れており、平均走行時間の7.8%、待ち時間の長さの11.2%にまで短縮されている。
論文参考訳（メタデータ） (2024-11-10T21:26:17Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Traffic Signal Control Using Lightweight Transformers: An Offline-to-Online RL Approach [6.907105812732423]
我々は,オフラインで容易にアクセス可能なデータセットからポリシーを学習可能な,軽量な決定変換方式DTLightを提案する。オフラインデータセット上で純粋に事前トレーニングされたDTLightは、ほとんどのシナリオで最先端のオンラインRLベースのメソッドより優れている。実験の結果、オンラインの微調整により、最高のオンラインRLベースラインメソッドよりもDTLightのパフォーマンスが42.6%向上することが示された。
論文参考訳（メタデータ） (2023-12-12T23:21:57Z)
A Fully Data-Driven Approach for Realistic Traffic Signal Control Using Offline Reinforcement Learning [18.2541182874636]
現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
論文参考訳（メタデータ） (2023-11-27T15:29:21Z)
Learning to Control Autonomous Fleets from Observation via Offline Reinforcement Learning [3.9121134770873733]
オフライン強化学習のレンズによる自律移動システム制御の形式化を提案する。オフラインRLは、経済的にクリティカルなシステムにおいて、RLベースのソリューションを適用する上で有望なパラダイムであることを示す。
論文参考訳（メタデータ） (2023-02-28T18:31:07Z)
Challenges and Opportunities in Offline Reinforcement Learning from Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。 2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文参考訳（メタデータ） (2022-06-09T22:08:47Z)
ModelLight: Model-Based Meta-Reinforcement Learning for Traffic Signal Control [5.219291917441908]
本稿では,交通信号制御のためのモデルベースメタ強化学習フレームワーク(ModelLight)を提案する。 ModelLight内では、道路交差点のためのモデルのアンサンブルと最適化に基づくメタラーニング法を用いて、RLベースのトラヒックライト制御方式のデータ効率を改善する。実世界のデータセットの実験では、ModelLightが最先端のトラヒックライト制御アルゴリズムより優れていることが示されている。
論文参考訳（メタデータ） (2021-11-15T20:25:08Z)
Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文参考訳（メタデータ） (2020-12-21T18:28:17Z)
Deep traffic light detection by overlaying synthetic context on arbitrary natural images [49.592798832978296]
深部交通光検出器のための人工的な交通関連トレーニングデータを生成する手法を提案する。このデータは、任意の画像背景の上に偽のトラフィックシーンをブレンドするために、基本的な非現実的なコンピュータグラフィックスを用いて生成される。また、交通信号データセットの本質的なデータ不均衡問題にも対処し、主に黄色い状態のサンプルの少なさによって引き起こされる。
論文参考訳（メタデータ） (2020-11-07T19:57:22Z)
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文参考訳（メタデータ） (2020-10-26T14:31:08Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。