論文の概要: Model Predictive Control-Guided Reinforcement Learning for Implicit Balancing
- arxiv url: http://arxiv.org/abs/2510.04868v1
- Date: Mon, 06 Oct 2025 14:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.916127
- Title: Model Predictive Control-Guided Reinforcement Learning for Implicit Balancing
- Title(参考訳): インシデントバランシングのためのモデル予測制御誘導強化学習
- Authors: Seyed Soroush Karimi Madahi, Kenneth Bruninx, Bert Claessens, Chris Develder,
- Abstract要約: ヨーロッパでは、利益を追求する責任ある当事者は、日々の指名からリアルタイムで逸脱し、送信システムオペレーターを支援することができる。
本稿では, MPC と RL の相補的強度を組み合わせた MPC 誘導 RL 法を提案する。
2023年のベルギーのバランシングデータを用いて,暗黙的バランシングバッテリ制御問題に対して,提案手法の性能評価を行った。
- 参考スコア(独自算出の注目度): 2.6288470934623636
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In Europe, profit-seeking balance responsible parties can deviate in real time from their day-ahead nominations to assist transmission system operators in maintaining the supply-demand balance. Model predictive control (MPC) strategies to exploit these implicit balancing strategies capture arbitrage opportunities, but fail to accurately capture the price-formation process in the European imbalance markets and face high computational costs. Model-free reinforcement learning (RL) methods are fast to execute, but require data-intensive training and usually rely on real-time and historical data for decision-making. This paper proposes an MPC-guided RL method that combines the complementary strengths of both MPC and RL. The proposed method can effectively incorporate forecasts into the decision-making process (as in MPC), while maintaining the fast inference capability of RL. The performance of the proposed method is evaluated on the implicit balancing battery control problem using Belgian balancing data from 2023. First, we analyze the performance of the standalone state-of-the-art RL and MPC methods from various angles, to highlight their individual strengths and limitations. Next, we show an arbitrage profit benefit of the proposed MPC-guided RL method of 16.15% and 54.36%, compared to standalone RL and MPC.
- Abstract(参考訳): ヨーロッパでは、利益を追求する責任ある当事者が日々の指名からリアルタイムで逸脱し、需給バランスを維持するために送信システムのオペレーターを支援することができる。
これらの暗黙的均衡戦略を利用するモデル予測制御(MPC)戦略は、仲裁の機会を捉えるが、ヨーロッパの不均衡市場における価格形成過程を正確に把握することができず、高い計算コストに直面している。
モデルフリー強化学習(RL)法は高速に実行可能であるが、データ集約的な訓練を必要とし、意思決定にはリアルタイムおよび歴史的データに依存する。
本稿では, MPC と RL の相補的強度を組み合わせた MPC 誘導 RL 法を提案する。
提案手法は,RLの高速推論能力を維持しつつ,予測を(MPCのように)意思決定プロセスに効果的に組み込むことができる。
2023年のベルギーのバランシングデータを用いて,暗黙的バランシングバッテリ制御問題に対して,提案手法の性能評価を行った。
まず, スタンドアロンのRL法とMPC法の性能を様々な角度から解析し, それぞれの強度と限界を明らかにする。
次に,16.15%および54.36%のMPC誘導型RL法において,スタンドアローンのRL法とMPC法を比較検討した。
関連論文リスト
- Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Control Policy Correction Framework for Reinforcement Learning-based Energy Arbitrage Strategies [4.950434218152639]
そこで本稿では,電池の非均衡化機構において,安全なエネルギー仲裁戦略を実現するための新しいRLベースの制御フレームワークを提案する。
提案手法の性能評価には,2023年のベルギーの不均衡価格を用いる。
論文 参考訳(メタデータ) (2024-04-29T16:03:21Z) - Distributional Reinforcement Learning-based Energy Arbitrage Strategies
in Imbalance Settlement Mechanism [6.520803851931361]
再生可能エネルギー源の浸透の進展により、供給がより不確実になり、システムの不均衡が増大する。
分散強化学習(DRL)に基づく電池制御フレームワークを提案する。
提案するコントロール・フレームワークはリスクに敏感な視点を採り、BRPがリスク・プライオリティを調整することができる。
論文 参考訳(メタデータ) (2023-12-23T15:38:31Z) - Deep Reinforcement Learning Approach for Trading Automation in The Stock
Market [0.0]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムを用いて,株式市場における収益性取引を生成するモデルを提案する。
我々は、市場が課す制約を考慮して、部分的に観測されたマルコフ決定プロセス(POMDP)モデルとして取引問題を定式化する。
次に, Twin Delayed Deep Deterministic Policy Gradient (TD3) アルゴリズムを用いて, 2.68 Sharpe Ratio を未知のデータセットに報告し, 定式化した POMDP 問題を解く。
論文 参考訳(メタデータ) (2022-07-05T11:34:29Z) - Optimized cost function for demand response coordination of multiple EV
charging stations using reinforcement learning [6.37470346908743]
我々は、複数の充電ステーションを同時に調整するマルコフ決定プロセス(MDP)に基づいて、RLに関する以前の研究に基づいて構築する。
我々は、基本的に、学習した制御ポリシーに対して、柔軟性を提供しない充電需要を常に満たすよう強制するコスト関数の改善を提案する。
提案したバッチRLのQ-iteration実装を,実世界のデータを用いて,オリジナル(コスト)のQ-iteration実装と厳密に比較する。
論文 参考訳(メタデータ) (2022-03-03T11:22:27Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。