論文の概要: Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment
- arxiv url: http://arxiv.org/abs/2602.19223v1
- Date: Sun, 22 Feb 2026 15:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.54009
- Title: Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment
- Title(参考訳): エネルギー制御のためのMARLのキャラクタリゼーション:都市環境におけるマルチKPIベンチマーク
- Authors: Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Claude Formanek, Siddarth Singh, Ruan De Kock,
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)は、スケーラビリティと協調性に対処するための有望なソリューションである。
本稿では,エネルギー管理タスクにおけるMARLアルゴリズムの総合的かつ信頼性の高いベンチマークの必要性について論じる。
CityLearnは、都市エネルギーシステムをシミュレートし、複数のストレージシステムを組み込み、再生可能エネルギー源を利用するため、ケーススタディ環境として使用される。
- 参考スコア(独自算出の注目度): 0.7371081631199642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The optimization of urban energy systems is crucial for the advancement of sustainable and resilient smart cities, which are becoming increasingly complex with multiple decision-making units. To address scalability and coordination concerns, Multi-Agent Reinforcement Learning (MARL) is a promising solution. This paper addresses the imperative need for comprehensive and reliable benchmarking of MARL algorithms on energy management tasks. CityLearn is used as a case study environment because it realistically simulates urban energy systems, incorporates multiple storage systems, and utilizes renewable energy sources. By doing so, our work sets a new standard for evaluation, conducting a comparative study across multiple key performance indicators (KPIs). This approach illuminates the key strengths and weaknesses of various algorithms, moving beyond traditional KPI averaging which often masks critical insights. Our experiments utilize widely accepted baselines such as Proximal Policy Optimization (PPO) and Soft Actor Critic (SAC), and encompass diverse training schemes including Decentralized Training with Decentralized Execution (DTDE) and Centralized Training with Decentralized Execution (CTDE) approaches and different neural network architectures. Our work also proposes novel KPIs that tackle real world implementation challenges such as individual building contribution and battery storage lifetime. Our findings show that DTDE consistently outperforms CTDE in both average and worst-case performance. Additionally, temporal dependency learning improved control on memory dependent KPIs such as ramping and battery usage, contributing to more sustainable battery operation. Results also reveal robustness to agent or resource removal, highlighting both the resilience and decentralizability of the learned policies.
- Abstract(参考訳): 都市エネルギーシステムの最適化は、持続的でレジリエントなスマートシティの発展に不可欠である。
スケーラビリティと協調性に対処するため、MARL(Multi-Agent Reinforcement Learning)は有望なソリューションである。
本稿では,エネルギー管理タスクにおけるMARLアルゴリズムの総合的かつ信頼性の高いベンチマークの必要性について論じる。
CityLearnは、都市エネルギーシステムを現実的にシミュレートし、複数のストレージシステムを導入し、再生可能エネルギー源を利用するため、ケーススタディ環境として使用される。
これにより、評価基準を新たに設定し、複数のキーパフォーマンス指標(KPI)を比較検討する。
このアプローチは、さまざまなアルゴリズムの重要な長所と短所を照らすもので、しばしば重要な洞察を隠蔽する従来のKPI平均化を越えている。
我々の実験は、PPO(Proximal Policy Optimization)やSAC(Soft Actor Critic)といった広く受け入れられているベースラインを活用し、分散実行による分散トレーニング(Decentralized Training with Decentralized Execution)や、CTDE(Centralized Training with Decentralized Execution)アプローチや、異なるニューラルネットワークアーキテクチャを含む多様なトレーニングスキームを網羅する。
我々の研究は、建築貢献や蓄電池寿命といった現実的な実装課題に対処する新しいKPIも提案している。
以上の結果から,DTDEは平均,最悪のともにCTDEより一貫して優れていた。
さらに、時間依存学習は、ランプやバッテリ使用などのメモリ依存KPIの制御を改善し、より持続可能なバッテリ操作に寄与した。
結果はまた、エージェントやリソースの削除に対する堅牢性を明らかにし、学習したポリシーのレジリエンスと分散性の両方を強調している。
関連論文リスト
- Independent policy gradient-based reinforcement learning for economic and reliable energy management of multi-microgrid systems [2.8374986119002803]
本研究は,マルチマイクログリッドシステム(MMS)における分散方式による経済的・信頼性の高いエネルギー管理問題について検討する。
本稿では,MMSとメイングリッド間の交換電力の平均と分散を,システムの経済性能と信頼性の指標として紹介する。
本稿では,厳密な収束分析を用いた完全分散独立政策アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-26T02:11:22Z) - Joint Resource Management for Energy-efficient UAV-assisted SWIPT-MEC: A Deep Reinforcement Learning Approach [50.52139512096988]
6G Internet of Things (IoT)ネットワークは、地上インフラストラクチャが利用できない遠隔地や災害シナリオにおいて、課題に直面している。
本稿では、指向性アンテナにより強化された新しい無人航空機(UAV)支援コンピューティングシステムを提案する。
論文 参考訳(メタデータ) (2025-05-06T06:46:19Z) - Generalising Battery Control in Net-Zero Buildings via Personalised Federated RL [5.195669033269619]
本研究は,協調的・プライバシ保護フレームワークによる建築用マイクログリッドの最適エネルギー管理の課題について考察する。
我々は、分散エネルギー資源を管理するために、異なる協調的な設定で2つの共通RLアルゴリズム(PPOとTRPO)を評価する。
弊社のアプローチは、エネルギーコストと二酸化炭素排出量の削減と、プライバシーの確保に重点を置いている。
論文 参考訳(メタデータ) (2024-12-30T13:38:31Z) - Deep Reinforcement Learning for Community Battery Scheduling under
Uncertainties of Load, PV Generation, and Energy Prices [5.694872363688119]
本稿では,不確実性が存在する場合に,コミュニティバッテリーシステムのスケジューリングを行うための深層強化学習(RL)戦略を提案する。
コミュニティバッテリーは、ローカルPVエネルギーの統合、ピーク負荷の低減、および調停のためのエネルギー価格変動の活用において、多用途の役割を担っている。
論文 参考訳(メタデータ) (2023-12-04T13:45:17Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with Online Learning [55.08287089554127]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - Optimal Planning of Hybrid Energy Storage Systems using Curtailed
Renewable Energy through Deep Reinforcement Learning [0.0]
エネルギー貯蔵システム(ESS)を計画するためのポリシーに基づくアルゴリズムを用いた高度な深層強化学習手法を提案する。
定量的性能比較の結果、DRLエージェントはシナリオベース最適化(SO)アルゴリズムよりも優れていた。
その結果、DRLエージェントは人間の専門家が行うように学習し、提案手法の信頼性が示唆された。
論文 参考訳(メタデータ) (2022-12-12T02:24:50Z) - An Energy and Carbon Footprint Analysis of Distributed and Federated
Learning [42.37180749113699]
古典的で中央集権的な人工知能(AI)手法では、生産者(センサー、マシン)からエネルギー空腹のデータセンターへデータを移動する必要がある。
このような高エネルギーコストを緩和する新たな代替手段は、デバイス間で学習タスクを効率的に分散またはフェデレートすることを提案している。
本稿では,分散学習におけるエネルギーおよび炭素フットプリントの分析のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-06-21T13:28:49Z) - Energy-Efficient Multi-Orchestrator Mobile Edge Learning [54.28419430315478]
Mobile Edge Learning(MEL)は、エッジデバイス上で機械学習(ML)モデルの分散トレーニングを特徴とする、協調学習パラダイムである。
MELでは、異なるデータセットで複数の学習タスクが共存する可能性がある。
本稿では, エネルギー消費, 精度, 解複雑性のトレードオフを容易にする軽量なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-02T07:37:10Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。