論文の概要: GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility
- arxiv url: http://arxiv.org/abs/2604.24549v1
- Date: Mon, 27 Apr 2026 14:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.092747
- Title: GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility
- Title(参考訳): GradMAP:グリッドエッジフレキシビリティのためのグラディエントベースのマルチエージェント確率学習
- Authors: Yihong Zhou, Hongtai Zeng, Thomas Morstyn,
- Abstract要約: GradMAPは、パラメータを共有することなく、各エージェントに対して独立したニューラルネットワークポリシーをトレーニングする。
オフライントレーニング中、GradMAPは3相交流パワーフローモデルをプリマルデュアル学習ループに組み込む。
トレーニングを高速化するため、GradMAPは信頼領域内の近位代理を通して高価な環境勾配を再利用する。
- 参考スコア(独自算出の注目度): 0.9940728137241214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Coordinating large populations of grid-edge devices requires learning methods that remain fully decentralised in deployment while still respecting three-phase AC distribution-network physics. This paper proposes gradient-based multi-agent proximal learning (GradMAP) to address this challenge. GradMAP trains independent neural-network policies for each agent without any parameter sharing, and each agent uses only its own local observation for online decision-making without communication. During offline training, GradMAP embeds a differentiable three-phase AC power-flow model in a primal-dual learning loop and uses implicit differentiation to propagate exact network-constraint violations to update the policy parameters. To speed up training, GradMAP reuses expensive environment gradients through a proximal surrogate within a trust region defined in the more direct policy-output (action) space, instead of the probability distribution space used in other works, such as PPO. In case studies with 1,000 agents managing batteries, heat pumps, and controllable generators on the IEEE 123-bus feeder, GradMAP learns decentralised policies that minimise three-phase AC load-flow constraint violations within 15 minutes of training on a single workstation-class NVIDIA RTX PRO 5000 Blackwell 48GB GPU. This is a 3--5x training speed-up over gradient-based self-supervised learning benchmarks and substantially better training efficiency than multi-agent reinforcement-learning benchmarks. In out-of-sample tests, GradMAP also delivers among the lowest operating cost and constraint violations.
- Abstract(参考訳): グリッドエッジデバイスの集団をコーディネートするには、三相交流分布ネットワーク物理を尊重しながら、デプロイにおいて完全に分散化し続ける学習方法が必要である。
本稿では,この課題に対処するために,勾配に基づくマルチエージェント近位学習(GradMAP)を提案する。
GradMAPは、パラメータを共有することなく、各エージェントに対して独立したニューラルネットワークポリシーをトレーニングし、各エージェントは、通信なしでオンライン意思決定のために、独自のローカルな観察のみを使用する。
オフライントレーニング中、GradMAPは3相交流パワーフローモデルをプリマル・デュアル学習ループに組み込み、暗黙の微分を用いて正確なネットワーク制約違反を伝播してポリシーパラメータを更新する。
トレーニングを高速化するために、GradMAPはPPOのような他の研究で使われる確率分布空間の代わりに、より直接的なポリシー出力(アクション)空間で定義された信頼領域内の近位代理を通して高価な環境勾配を再利用する。
IEEE 123バスフィードのバッテリー、ヒートポンプ、制御可能なジェネレータを管理する1,000のエージェントによる研究で、GradMAPは、単一のワークステーションクラスのNVIDIA RTX PRO 5000 Blackwell 48GB GPUで15分以内に3相交流負荷-フロー制約違反を最小限に抑える分散ポリシーを学ぶ。
これは勾配に基づく自己教師付き学習ベンチマークよりも3~5倍のトレーニングスピードアップであり、マルチエージェント強化学習ベンチマークよりもトレーニング効率が大幅に向上している。
サンプル外テストでは、GradMAPは最低の運用コストと制約違反も提供する。
関連論文リスト
- SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Heterogeneous Multi-Agent Proximal Policy Optimization for Power Distribution System Restoration [4.46185759083096]
本稿では, 相互接続したマイクログリッド間の協調修復を実現するために, 不均一・エージェント強化学習フレームワークを適用した。
その結果、HARLフレームワークにマイクログリッドレベルの不均一性を組み込むことで、複雑なPSD修復のためのスケーラブルで安定で制約対応のソリューションが得られることが示された。
論文 参考訳(メタデータ) (2025-11-18T18:23:35Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Fast Adaptive Task Offloading in Edge Computing based on Meta
Reinforcement Learning [44.81038225683222]
マルチアクセスエッジコンピューティング(MEC)は、クラウドサービスをネットワークエッジに拡張して、ネットワークトラフィックとサービスレイテンシを低減することを目的としている。
MECの基本的な問題は、モバイルアプリケーションの異種タスクをユーザ機器(UE)からMECホストに効率的にオフロードする方法である。
本稿では,メタ強化学習に基づくタスクオフロード手法を提案する。
論文 参考訳(メタデータ) (2020-08-05T10:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。