論文の概要: GuideLight: "Industrial Solution" Guidance for More Practical Traffic Signal Control Agents
- arxiv url: http://arxiv.org/abs/2407.10811v1
- Date: Mon, 15 Jul 2024 15:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:30:11.794354
- Title: GuideLight: "Industrial Solution" Guidance for More Practical Traffic Signal Control Agents
- Title(参考訳): GuideLight:より実践的な交通信号制御エージェントのための"産業ソリューション"ガイダンス
- Authors: Haoyuan Jiang, Xuantang Xiong, Ziyue Li, Hangyu Mao, Guanghu Sui, Jingqing Ruan, Yuheng Cheng, Hua Wei, Wolfgang Ketter, Rui Zhao,
- Abstract要約: 強化学習(RL)に基づく交通信号制御(TSC)法は,従来の手法よりも優れていることが証明されている。
しかし、ほとんどのRL法は、入力、出力、サイクル-フロー関係という3つの要因により、実世界で適用した場合に困難に直面している。
我々は、RLエージェントをガイドする業界ソリューションを提案する。
- 参考スコア(独自算出の注目度): 12.497518428553734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, traffic signal control (TSC) methods based on reinforcement learning (RL) have proven superior to traditional methods. However, most RL methods face difficulties when applied in the real world due to three factors: input, output, and the cycle-flow relation. The industry's observable input is much more limited than simulation-based RL methods. For real-world solutions, only flow can be reliably collected, whereas common RL methods need more. For the output action, most RL methods focus on acyclic control, which real-world signal controllers do not support. Most importantly, industry standards require a consistent cycle-flow relationship: non-decreasing and different response strategies for low, medium, and high-level flows, which is ignored by the RL methods. To narrow the gap between RL methods and industry standards, we innovatively propose to use industry solutions to guide the RL agent. Specifically, we design behavior cloning and curriculum learning to guide the agent to mimic and meet industry requirements and, at the same time, leverage the power of exploration and exploitation in RL for better performance. We theoretically prove that such guidance can largely decrease the sample complexity to polynomials in the horizon when searching for an optimal policy. Our rigid experiments show that our method has good cycle-flow relation and superior performance.
- Abstract(参考訳): 現在、強化学習(RL)に基づく交通信号制御(TSC)法は従来の手法よりも優れていることが証明されている。
しかし、ほとんどのRL法は、入力、出力、サイクル-フロー関係という3つの要因により、実世界で適用した場合に困難に直面している。
産業の観測可能な入力はシミュレーションベースのRL法よりもはるかに限られている。
現実世界のソリューションでは、フローのみが確実に収集できるが、一般的なRL法はもっと必要である。
出力動作については、ほとんどのRL法は実世界の信号制御装置がサポートしていない非循環制御に重点を置いている。
最も重要なことは、業界標準が一貫したサイクルフロー関係を必要とすることである。
RL法と業界標準とのギャップを狭めるため,RLエージェントを誘導する産業ソリューションを革新的に提案する。
具体的には、行動クローニングとカリキュラム学習を設計し、エージェントが業界要求を模倣し、満たすように誘導すると同時に、RLにおける探索と搾取の力を活用してパフォーマンスを向上させる。
理論的には、このようなガイダンスは、最適ポリシーを求める際に、標本の複雑さを地平線上の多項式に大きく減少させることができる。
剛性実験により,本手法はサイクル-フロー関係が良好であり,性能が良好であることが示された。
関連論文リスト
- Diffusion-Based Offline RL for Improved Decision-Making in Augmented ARC Task [10.046325073900297]
SOLAR(Abstraction and Reasoning)のための拡張オフラインRLデータセットを提案する。
SOLARは、十分な経験データを提供することで、オフラインのRLメソッドの適用を可能にする。
本実験は, 簡単なARCタスクにおけるオフラインRL手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-15T06:48:27Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Communication-Efficient Orchestrations for URLLC Service via
Hierarchical Reinforcement Learning [14.604814002402588]
制御ループの時間スケールが異なるマルチレベルポリシーの実装を可能にするマルチエージェント階層型RL(HRL)フレームワークを提案する。
従来技術のユースケースでは、HRLフレームワークを用いて、産業機器の最大送電量と送電電力を最適化した。
論文 参考訳(メタデータ) (2023-07-25T11:23:38Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。