論文の概要: Economic Battery Storage Dispatch with Deep Reinforcement Learning from Rule-Based Demonstrations
- arxiv url: http://arxiv.org/abs/2504.04326v1
- Date: Sun, 06 Apr 2025 02:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:48.874842
- Title: Economic Battery Storage Dispatch with Deep Reinforcement Learning from Rule-Based Demonstrations
- Title(参考訳): ルールベースによる深層強化学習による経済蓄電池の分散
- Authors: Manuel Sage, Martin Staniszewski, Yaoyao Fiona Zhao,
- Abstract要約: 本研究では,ソフトアクター・クリティック(SAC)を拡張し,実演から学習するアプローチを提案する。
グリッド接続型マイクログリッドのケーススタディを行い、電力の通販価格に基づくif-then-else文を用いてデモを収集する。
- 参考スコア(独自算出の注目度): 3.6117068575553595
- License:
- Abstract: The application of deep reinforcement learning algorithms to economic battery dispatch problems has significantly increased recently. However, optimizing battery dispatch over long horizons can be challenging due to delayed rewards. In our experiments we observe poor performance of popular actor-critic algorithms when trained on yearly episodes with hourly resolution. To address this, we propose an approach extending soft actor-critic (SAC) with learning from demonstrations. The special feature of our approach is that, due to the absence of expert demonstrations, the demonstration data is generated through simple, rule-based policies. We conduct a case study on a grid-connected microgrid and use if-then-else statements based on the wholesale price of electricity to collect demonstrations. These are stored in a separate replay buffer and sampled with linearly decaying probability along with the agent's own experiences. Despite these minimal modifications and the imperfections in the demonstration data, the results show a drastic performance improvement regarding both sample efficiency and final rewards. We further show that the proposed method reliably outperforms the demonstrator and is robust to the choice of rule, as long as the rule is sufficient to guide early training into the right direction.
- Abstract(参考訳): 近年, 電力供給問題への深層強化学習アルゴリズムの適用が著しく増加している。
しかし、長い地平線上でのバッテリーディスパッチの最適化は、遅延報酬のため困難である。
実験では,時間分解能のある年次エピソードにおいて,人気アクター批判アルゴリズムの粗悪な性能を観察した。
そこで本研究では,ソフトアクター批判(SAC)を拡張し,実演から学習するアプローチを提案する。
提案手法の特長は, 専門家による実証が欠如しているため, 簡単なルールベースのポリシーによって, 実演データを生成することである。
グリッド接続型マイクログリッドのケーススタディを行い,電力価格に基づくif-then-else文を用いて実演を収集する。
これらは別個のリプレイバッファに格納され、エージェント自身の経験とともに線形に減衰する確率でサンプリングされる。
これらの最小限の修正と実証データの不完全性にもかかわらず、結果はサンプル効率と最終報酬の両方に関して劇的な性能向上を示した。
さらに,本提案手法は,早期訓練を正しい方向に導くのに十分なルールである限り,デモレータを確実に上回り,規則の選択に頑健であることを示す。
関連論文リスト
- Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations [2.709826237514737]
報酬フィードバックの幅は、オンラインの深層強化学習において依然として難しい問題である。
Smooth Guidance (POSG) を用いたポリシー最適化手法を提案する。
4つのスパース・リワード環境におけるPOSGの制御性能と収束速度の顕著な優位性を示す。
論文 参考訳(メタデータ) (2023-12-30T07:41:45Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - Evaluating the Effectiveness of Corrective Demonstrations and a Low-Cost
Sensor for Dexterous Manipulation [0.5669790037378094]
模倣学習は、ロボットが巧妙な操作能力を獲得するのを助ける、有望なアプローチである。
このような追加デモンストレーションの特性と性能への影響について検討する。
本稿では、LeapMotionのような安価な視覚ベースのセンサーを用いて、デモの提供コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2022-04-15T19:55:46Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks [2.0305676256390934]
そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。
本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。
実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
論文 参考訳(メタデータ) (2022-01-11T08:35:18Z) - Learning from demonstrations with SACR2: Soft Actor-Critic with Reward
Relabeling [2.1485350418225244]
オフポリシーアルゴリズムはサンプリング効率が良く、リプレイバッファに格納された任意のオフポリシーデータの恩恵を受けることができる。
専門家によるデモンストレーションは、そのようなデータのための一般的な情報源である。
本稿では,実演と成功エピソードに対する報酬ボーナスに基づく新たな手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T14:30:29Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。