論文の概要: FitLight: Federated Imitation Learning for Plug-and-Play Autonomous Traffic Signal Control
- arxiv url: http://arxiv.org/abs/2502.11937v1
- Date: Mon, 17 Feb 2025 15:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:30.049794
- Title: FitLight: Federated Imitation Learning for Plug-and-Play Autonomous Traffic Signal Control
- Title(参考訳): FitLight: プラグイン・アンド・プレイ自律交通信号制御のためのフェデレーション・シミュレーション学習
- Authors: Yutong Ye, Yingbo Zhou, Zhusen Liu, Xiao Du, Hao Zhou, Xiang Lian, Mingsong Chen,
- Abstract要約: 強化学習(Reinforcement Learning, RL)に基づく交通信号制御(TSC)手法は, 高い学習コストや一般化性の低下といった深刻な問題を提起する。
We propose a novel Federated Imitation Learning (FIL) based framework for multi-intersection TSC, named FitLight。
FitLightはリアルタイムの模倣学習と強化学習へのシームレスな移行を可能にする。
- 参考スコア(独自算出の注目度): 33.547772623142414
- License:
- Abstract: Although Reinforcement Learning (RL)-based Traffic Signal Control (TSC) methods have been extensively studied, their practical applications still raise some serious issues such as high learning cost and poor generalizability. This is because the ``trial-and-error'' training style makes RL agents extremely dependent on the specific traffic environment, which also requires a long convergence time. To address these issues, we propose a novel Federated Imitation Learning (FIL)-based framework for multi-intersection TSC, named FitLight, which allows RL agents to plug-and-play for any traffic environment without additional pre-training cost. Unlike existing imitation learning approaches that rely on pre-training RL agents with demonstrations, FitLight allows real-time imitation learning and seamless transition to reinforcement learning. Due to our proposed knowledge-sharing mechanism and novel hybrid pressure-based agent design, RL agents can quickly find a best control policy with only a few episodes. Moreover, for resource-constrained TSC scenarios, FitLight supports model pruning and heterogeneous model aggregation, such that RL agents can work on a micro-controller with merely 16{\it KB} RAM and 32{\it KB} ROM. Extensive experiments demonstrate that, compared to state-of-the-art methods, FitLight not only provides a superior starting point but also converges to a better final solution on both real-world and synthetic datasets, even under extreme resource limitations.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)に基づく交通信号制御(TSC)手法は広く研究されているが, 実用化は依然として, 高い学習コストや一般化可能性の低下といった深刻な問題を提起している。
これは、‘trial-and-error’のトレーニングスタイルが、RLエージェントを特定のトラフィック環境に極めて依存させるためである。
これらの課題に対処するため,FIL(Federated Imitation Learning)をベースとしたFIL(Federated Imitation Learning)ベースのFILフレームワークFitLightを提案する。
実演による事前学習RLエージェントに依存する既存の模倣学習アプローチとは異なり、FitLightはリアルタイムの模倣学習と強化学習へのシームレスな移行を可能にする。
提案した知識共有機構とハイブリッド・プレッシャー・ベース・エージェントの設計により,RLエージェントはエピソード数回で最適な制御ポリシーを迅速に見つけることができる。
さらに、資源制約のあるTSCのシナリオでは、FitLightはモデルプルーニングと異種モデルアグリゲーションをサポートしており、RLエージェントは、単に16{\it KB} RAMと32{\it KB} ROMを持つマイクロコントローラ上で動作することができる。
大規模な実験は、最先端の手法と比較して、FitLightは優れた出発点を提供するだけでなく、極端なリソース制限下であっても、現実世界と合成データセットの両方においてより良い最終解に収束することを示した。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Traffic Signal Control Using Lightweight Transformers: An
Offline-to-Online RL Approach [6.907105812732423]
我々は,オフラインで容易にアクセス可能なデータセットからポリシーを学習可能な,軽量な決定変換方式DTLightを提案する。
オフラインデータセット上で純粋に事前トレーニングされたDTLightは、ほとんどのシナリオで最先端のオンラインRLベースのメソッドより優れている。
実験の結果、オンラインの微調整により、最高のオンラインRLベースラインメソッドよりもDTLightのパフォーマンスが42.6%向上することが示された。
論文 参考訳(メタデータ) (2023-12-12T23:21:57Z) - LExCI: A Framework for Reinforcement Learning with Embedded Systems [1.8218298349840023]
本稿では,RLライブラリと組込みシステムとのギャップを埋める LExCI というフレームワークを提案する。
オープンソースライブラリのRLlibを使用して,組み込みシステム上でエージェントをトレーニングするための,無償かつオープンソースツールを提供する。
操作性は、最先端の2つのRL-algorithmと、迅速な制御プロトタイピングシステムで実証されている。
論文 参考訳(メタデータ) (2023-12-05T13:06:25Z) - Transfer of Reinforcement Learning-Based Controllers from Model- to
Hardware-in-the-Loop [1.8218298349840023]
強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。
組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。
本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-25T09:13:12Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Integrating Distributed Architectures in Highly Modular RL Libraries [4.297070083645049]
ほとんどの人気のある強化学習ライブラリは、高度にモジュール化されたエージェントの構成性を主張している。
本稿では、RLエージェントを独立した再利用可能なコンポーネントによって異なるスケールで定義できる汎用的アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-06T10:22:07Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。