論文の概要: Electric Bus Charging Schedules Relying on Real Data-Driven Targets Based on Hierarchical Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.10262v1
- Date: Thu, 15 May 2025 13:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.324486
- Title: Electric Bus Charging Schedules Relying on Real Data-Driven Targets Based on Hierarchical Deep Reinforcement Learning
- Title(参考訳): 階層的深層強化学習に基づく実データ駆動目標に基づく電気バス充電スケジューリング
- Authors: Jiaju Qi, Lei Lei, Thorsteinn Jonsson, Lajos Hanzo,
- Abstract要約: 深部強化学習(DRL)に基づく電気バス(EB)の充電スケジューリング問題の検討
高レベルエージェントは、充電期間毎に充電目標を規定する効果的なポリシーを学習し、低レベルエージェントは、1回の充電期間内に各ステップの充電パワーを設定するための最適なポリシーを学習する。
最適高レベル政策と最適低レベル政策を重畳して構築された平坦な政策が、元のMDPの最適政策と同様に機能することが証明された。
- 参考スコア(独自算出の注目度): 46.15490780173541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The charging scheduling problem of Electric Buses (EBs) is investigated based on Deep Reinforcement Learning (DRL). A Markov Decision Process (MDP) is conceived, where the time horizon includes multiple charging and operating periods in a day, while each period is further divided into multiple time steps. To overcome the challenge of long-range multi-phase planning with sparse reward, we conceive Hierarchical DRL (HDRL) for decoupling the original MDP into a high-level Semi-MDP (SMDP) and multiple low-level MDPs. The Hierarchical Double Deep Q-Network (HDDQN)-Hindsight Experience Replay (HER) algorithm is proposed for simultaneously solving the decision problems arising at different temporal resolutions. As a result, the high-level agent learns an effective policy for prescribing the charging targets for every charging period, while the low-level agent learns an optimal policy for setting the charging power of every time step within a single charging period, with the aim of minimizing the charging costs while meeting the charging target. It is proved that the flat policy constructed by superimposing the optimal high-level policy and the optimal low-level policy performs as well as the optimal policy of the original MDP. Since jointly learning both levels of policies is challenging due to the non-stationarity of the high-level agent and the sampling inefficiency of the low-level agent, we divide the joint learning process into two phases and exploit our new HER algorithm to manipulate the experience replay buffers for both levels of agents. Numerical experiments are performed with the aid of real-world data to evaluate the performance of the proposed algorithm.
- Abstract(参考訳): 深部強化学習(DRL)に基づく電気バス(EB)の充電スケジューリング問題について検討した。
マルコフ決定プロセス(MDP)は、時間地平線が1日に複数の充電および運転期間を含むとともに、各期間を複数の時間ステップに分割する。
低報酬で長距離多相計画の課題を克服するため、我々は、元のMDPを高レベルセミMDP(SMDP)と複数の低レベルMDPに分解する階層DRL(HDRL)を考案した。
時間分解能の異なる決定問題を同時に解くために,階層型Double Deep Q-Network (HDDQN)-Hindsight Experience Replay (HER)アルゴリズムを提案する。
その結果、高レベルエージェントは、充電期間毎に充電目標を規定する有効なポリシーを学習し、低レベルエージェントは、充電目標を満たしながら充電コストを最小化することを目的として、1回の充電期間内に各時間ステップの充電パワーを設定するための最適なポリシーを学習する。
最適高レベル政策と最適低レベル政策を重畳して構築された平坦な政策が、元のMDPの最適政策と同様に機能することが証明された。
高レベルのエージェントの非定常性や低レベルのエージェントのサンプリング非効率性により、両レベルのポリシーを共同学習することは困難であるため、共同学習プロセスを2つのフェーズに分割し、新しいHERアルゴリズムを利用して、両方のエージェントのバッファの操作を行う。
提案アルゴリズムの性能を評価するために,実世界のデータを用いて数値実験を行った。
関連論文リスト
- Optimizing Electric Bus Charging Scheduling with Uncertainties Using Hierarchical Deep Reinforcement Learning [46.15490780173541]
電気バス(EB)は持続可能な開発に向けた重要な一歩である。
モノのインターネット(IoT)システムを利用することで、充電ステーションはリアルタイムデータに基づいて充電スケジュールを自律的に決定できる。
しかし、旅行時間の不確実性、エネルギー消費、電力価格の変動などにより、EB充電スケジュールの最適化は依然として重要な課題である。
論文 参考訳(メタデータ) (2025-05-15T13:44:27Z) - Multi-agent reinforcement learning strategy to maximize the lifetime of Wireless Rechargeable [0.32634122554913997]
本論文では,ネットワーク寿命を最大化するために,複数の移動体充電器の汎用充電フレームワークを提案する。
マルチポイント充電モデルは充電効率を高めるために利用され、MCは充電位置ごとに複数のセンサーを同時に充電することができる。
この提案では、大規模な再トレーニングを必要とせずに、強化アルゴリズムを異なるネットワークに適用できる。
論文 参考訳(メタデータ) (2024-11-21T02:18:34Z) - Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。
MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T16:23:47Z) - Optimal Scheduling in IoT-Driven Smart Isolated Microgrids Based on Deep
Reinforcement Learning [10.924928763380624]
深部強化学習(DRL)によるモノ駆動マイクログリッド(MG)におけるディーゼル発電機(DG)のスケジューリング問題について検討する。
DRLエージェントは、過去の履歴再生およびロードデータから最適なポリシーを学習する。
目標は、需給バランスを確保するという前提で運用コストを削減することである。
論文 参考訳(メタデータ) (2023-04-28T23:52:50Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-01-24T12:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。