論文の概要: Traffic Signal Control Using Lightweight Transformers: An
Offline-to-Online RL Approach
- arxiv url: http://arxiv.org/abs/2312.07795v1
- Date: Tue, 12 Dec 2023 23:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 17:08:02.767066
- Title: Traffic Signal Control Using Lightweight Transformers: An
Offline-to-Online RL Approach
- Title(参考訳): 軽量変圧器を用いた交通信号制御:オフライン-オンラインRLアプローチ
- Authors: Xingshuai Huang, Di Wu, and Benoit Boulet
- Abstract要約: 我々は,オフラインで容易にアクセス可能なデータセットからポリシーを学習可能な,軽量な決定変換方式DTLightを提案する。
オフラインデータセット上で純粋に事前トレーニングされたDTLightは、ほとんどのシナリオで最先端のオンラインRLベースのメソッドより優れている。
実験の結果、オンラインの微調整により、最高のオンラインRLベースラインメソッドよりもDTLightのパフォーマンスが42.6%向上することが示された。
- 参考スコア(独自算出の注目度): 6.907105812732423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient traffic signal control is critical for reducing traffic congestion
and improving overall transportation efficiency. The dynamic nature of traffic
flow has prompted researchers to explore Reinforcement Learning (RL) for
traffic signal control (TSC). Compared with traditional methods, RL-based
solutions have shown preferable performance. However, the application of
RL-based traffic signal controllers in the real world is limited by the low
sample efficiency and high computational requirements of these solutions. In
this work, we propose DTLight, a simple yet powerful lightweight Decision
Transformer-based TSC method that can learn policy from easily accessible
offline datasets. DTLight novelly leverages knowledge distillation to learn a
lightweight controller from a well-trained larger teacher model to reduce
implementation computation. Additionally, it integrates adapter modules to
mitigate the expenses associated with fine-tuning, which makes DTLight
practical for online adaptation with minimal computation and only a few
fine-tuning steps during real deployment. Moreover, DTLight is further enhanced
to be more applicable to real-world TSC problems. Extensive experiments on
synthetic and real-world scenarios show that DTLight pre-trained purely on
offline datasets can outperform state-of-the-art online RL-based methods in
most scenarios. Experiment results also show that online fine-tuning further
improves the performance of DTLight by up to 42.6% over the best online RL
baseline methods. In this work, we also introduce Datasets specifically
designed for TSC with offline RL (referred to as DTRL). Our datasets and code
are publicly available.
- Abstract(参考訳): 交通渋滞の低減と交通効率の向上に効率的な交通信号制御が重要である。
交通流のダイナミックな性質は、交通信号制御(TSC)のための強化学習(RL)を探究するきっかけとなった。
従来の方法と比較して、RLベースのソリューションは好ましい性能を示している。
しかし,実世界におけるrlベースのトラヒック信号制御の応用は,サンプル効率の低さと高計算能力によって制限される。
本稿では,オフラインデータセットから容易にアクセス可能なポリシを学習可能な,シンプルかつパワフルな意思決定トランスフォーマーベースのtsc手法であるdtlightを提案する。
DTLightは知識蒸留を利用して、よく訓練されたより大きな教師モデルから軽量のコントローラを学び、実装の計算を減らす。
さらに、アダプタモジュールを統合して、微調整に関連するコストを軽減することで、DTLightを最小限の計算でオンライン適応し、実際のデプロイ時にわずか数ステップしか微調整できないものにする。
さらに、DTLightは現実世界のTSC問題にも適用できるように拡張されている。
合成および実世界のシナリオに関する大規模な実験は、オフラインデータセットで純粋にトレーニングされたDTLightが、ほとんどのシナリオで最先端のオンラインRLベースのメソッドより優れていることを示している。
実験の結果、オンラインの微調整により、最高のオンラインRLベースラインメソッドよりもDTLightのパフォーマンスが42.6%向上することが示された。
本研究では、オフラインRL(DTRL)を備えたTSC用に特別に設計されたデータセットについても紹介する。
データセットとコードは公開されています。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning [18.2541182874636]
現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。
我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
論文 参考訳(メタデータ) (2023-11-27T15:29:21Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven
Reinforcement Learning [52.49786369812919]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - DataLight: Offline Data-Driven Traffic Signal Control [9.393196900855648]
Reinforcement Learning (RL) は、交通信号制御(TSC)の課題に対処するための有望なソリューションとして登場した。
この研究は、DataLightと呼ばれる革新的なオフラインデータ駆動アプローチを導入している。
DataLightは、車両の速度情報をキャプチャすることで、効果的な状態表現と報酬関数を利用する。
論文 参考訳(メタデータ) (2023-03-20T02:02:50Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Efficient Pressure: Improving efficiency for signalized intersections [24.917612761503996]
交通信号制御(TSC)の問題を解決するために,強化学習(RL)が注目されている。
既存のRLベースの手法は、計算資源の面でコスト効率が良くなく、従来の手法よりも堅牢ではないため、ほとんどデプロイされない。
我々は,RTLに基づくアプローチに基づいて,トレーニングを減らし,複雑さを低減したTSCの適応制御系を構築する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T13:49:58Z) - ModelLight: Model-Based Meta-Reinforcement Learning for Traffic Signal
Control [5.219291917441908]
本稿では,交通信号制御のためのモデルベースメタ強化学習フレームワーク(ModelLight)を提案する。
ModelLight内では、道路交差点のためのモデルのアンサンブルと最適化に基づくメタラーニング法を用いて、RLベースのトラヒックライト制御方式のデータ効率を改善する。
実世界のデータセットの実験では、ModelLightが最先端のトラヒックライト制御アルゴリズムより優れていることが示されている。
論文 参考訳(メタデータ) (2021-11-15T20:25:08Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。