Fugu-MT 論文翻訳(概要): Electric Bus Charging Schedules Relying on Real Data-Driven Targets Based on Hierarchical Deep Reinforcement Learning

論文の概要: Electric Bus Charging Schedules Relying on Real Data-Driven Targets Based on Hierarchical Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.10262v1
Date: Thu, 15 May 2025 13:13:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.324486
Title: Electric Bus Charging Schedules Relying on Real Data-Driven Targets Based on Hierarchical Deep Reinforcement Learning
Title（参考訳）: 階層的深層強化学習に基づく実データ駆動目標に基づく電気バス充電スケジューリング
Authors: Jiaju Qi, Lei Lei, Thorsteinn Jonsson, Lajos Hanzo,
Abstract要約: 深部強化学習(DRL)に基づく電気バス(EB)の充電スケジューリング問題の検討高レベルエージェントは、充電期間毎に充電目標を規定する効果的なポリシーを学習し、低レベルエージェントは、1回の充電期間内に各ステップの充電パワーを設定するための最適なポリシーを学習する。最適高レベル政策と最適低レベル政策を重畳して構築された平坦な政策が、元のMDPの最適政策と同様に機能することが証明された。
参考スコア（独自算出の注目度）: 46.15490780173541
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The charging scheduling problem of Electric Buses (EBs) is investigated based on Deep Reinforcement Learning (DRL). A Markov Decision Process (MDP) is conceived, where the time horizon includes multiple charging and operating periods in a day, while each period is further divided into multiple time steps. To overcome the challenge of long-range multi-phase planning with sparse reward, we conceive Hierarchical DRL (HDRL) for decoupling the original MDP into a high-level Semi-MDP (SMDP) and multiple low-level MDPs. The Hierarchical Double Deep Q-Network (HDDQN)-Hindsight Experience Replay (HER) algorithm is proposed for simultaneously solving the decision problems arising at different temporal resolutions. As a result, the high-level agent learns an effective policy for prescribing the charging targets for every charging period, while the low-level agent learns an optimal policy for setting the charging power of every time step within a single charging period, with the aim of minimizing the charging costs while meeting the charging target. It is proved that the flat policy constructed by superimposing the optimal high-level policy and the optimal low-level policy performs as well as the optimal policy of the original MDP. Since jointly learning both levels of policies is challenging due to the non-stationarity of the high-level agent and the sampling inefficiency of the low-level agent, we divide the joint learning process into two phases and exploit our new HER algorithm to manipulate the experience replay buffers for both levels of agents. Numerical experiments are performed with the aid of real-world data to evaluate the performance of the proposed algorithm.
Abstract（参考訳）: 深部強化学習(DRL)に基づく電気バス(EB)の充電スケジューリング問題について検討した。マルコフ決定プロセス(MDP)は、時間地平線が1日に複数の充電および運転期間を含むとともに、各期間を複数の時間ステップに分割する。低報酬で長距離多相計画の課題を克服するため、我々は、元のMDPを高レベルセミMDP(SMDP)と複数の低レベルMDPに分解する階層DRL(HDRL)を考案した。時間分解能の異なる決定問題を同時に解くために,階層型Double Deep Q-Network (HDDQN)-Hindsight Experience Replay (HER)アルゴリズムを提案する。その結果、高レベルエージェントは、充電期間毎に充電目標を規定する有効なポリシーを学習し、低レベルエージェントは、充電目標を満たしながら充電コストを最小化することを目的として、1回の充電期間内に各時間ステップの充電パワーを設定するための最適なポリシーを学習する。最適高レベル政策と最適低レベル政策を重畳して構築された平坦な政策が、元のMDPの最適政策と同様に機能することが証明された。高レベルのエージェントの非定常性や低レベルのエージェントのサンプリング非効率性により、両レベルのポリシーを共同学習することは困難であるため、共同学習プロセスを2つのフェーズに分割し、新しいHERアルゴリズムを利用して、両方のエージェントのバッファの操作を行う。提案アルゴリズムの性能を評価するために,実世界のデータを用いて数値実験を行った。

関連論文リスト

Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文参考訳（メタデータ） (2025-09-26T08:43:39Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Optimizing Electric Bus Charging Scheduling with Uncertainties Using Hierarchical Deep Reinforcement Learning [46.15490780173541]
電気バス(EB)は持続可能な開発に向けた重要な一歩である。モノのインターネット(IoT)システムを利用することで、充電ステーションはリアルタイムデータに基づいて充電スケジュールを自律的に決定できる。しかし、旅行時間の不確実性、エネルギー消費、電力価格の変動などにより、EB充電スケジュールの最適化は依然として重要な課題である。
論文参考訳（メタデータ） (2025-05-15T13:44:27Z)
Multi-agent reinforcement learning strategy to maximize the lifetime of Wireless Rechargeable [0.32634122554913997]
本論文では,ネットワーク寿命を最大化するために,複数の移動体充電器の汎用充電フレームワークを提案する。マルチポイント充電モデルは充電効率を高めるために利用され、MCは充電位置ごとに複数のセンサーを同時に充電することができる。この提案では、大規模な再トレーニングを必要とせずに、強化アルゴリズムを異なるネットワークに適用できる。
論文参考訳（メタデータ） (2024-11-21T02:18:34Z)
Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。 DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文参考訳（メタデータ） (2024-11-01T04:58:40Z)
Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。 MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-18T16:23:47Z)
Optimal Scheduling in IoT-Driven Smart Isolated Microgrids Based on Deep Reinforcement Learning [10.924928763380624]
深部強化学習(DRL)によるモノ駆動マイクログリッド(MG)におけるディーゼル発電機(DG)のスケジューリング問題について検討する。 DRLエージェントは、過去の履歴再生およびロードデータから最適なポリシーを学習する。目標は、需給バランスを確保するという前提で運用コストを削減することである。
論文参考訳（メタデータ） (2023-04-28T23:52:50Z)
Distributed-Training-and-Execution Multi-Agent Reinforcement Learning for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文参考訳（メタデータ） (2022-12-15T17:01:56Z)
Computation Offloading and Resource Allocation in F-RANs: A Federated Deep Reinforcement Learning Approach [67.06539298956854]
フォグ無線アクセスネットワーク(フォグ無線アクセスネットワーク、F-RAN)は、ユーザのモバイルデバイス(MD)が計算タスクを近くのフォグアクセスポイント(F-AP)にオフロードできる有望な技術である。
論文参考訳（メタデータ） (2022-06-13T02:19:20Z)
Adversarially Guided Subgoal Generation for Hierarchical Reinforcement Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文参考訳（メタデータ） (2022-01-24T12:30:38Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。