論文の概要: Reducing Action Space: Reference-Model-Assisted Deep Reinforcement
Learning for Inverter-based Volt-Var Control
- arxiv url: http://arxiv.org/abs/2210.07360v1
- Date: Mon, 10 Oct 2022 02:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 20:18:45.478634
- Title: Reducing Action Space: Reference-Model-Assisted Deep Reinforcement
Learning for Inverter-based Volt-Var Control
- Title(参考訳): 動作空間の削減:インバータに基づくvolt-var制御のための参照モデル支援深層強化学習
- Authors: Qiong Liu, Ye Guo, Lirong Deng, Haotian Liu, Dongyu Li, Hongbin Sun
- Abstract要約: Inverter-based Volt-Var Control (IB-VVC) のための参照モデル支援深部強化学習(DRL)を提案する。
DRLの動作空間を低減するために,参照モデルを用いたDRLアプローチを設計する。
DRLの学習困難を軽減し、参照モデル支援DRLアプローチの性能を最適化する。
- 参考スコア(独自算出の注目度): 15.755809730271327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference-model-assisted deep reinforcement learning (DRL) for inverter-based
Volt-Var Control (IB-VVC) in active distribution networks is proposed. We
investigate that a large action space increases the learning difficulties of
DRL and degrades the optimization performance in the process of generating data
and training neural networks. To reduce the action space of DRL, we design a
reference-model-assisted DRL approach. We introduce definitions of the
reference model, reference-model-based optimization, and reference actions. The
reference-model-assisted DRL learns the residual actions between the reference
actions and optimal actions, rather than learning the optimal actions directly.
Since the residual actions are considerably smaller than the optimal actions
for a reference model, we can design a smaller action space for the
reference-model-assisted DRL. It reduces the learning difficulties of DRL and
optimises the performance of the reference-model-assisted DRL approach. It is
noteworthy that the reference-model-assisted DRL approach is compatible with
any policy gradient DRL algorithms for continuous action problems. This work
takes the soft actor-critic algorithm as an example and designs a
reference-model-assisted soft actor-critic algorithm. Simulations show that 1)
large action space degrades the performance of DRL in the whole training stage,
and 2) reference-model-assisted DRL requires fewer iteration times and returns
a better optimization performance.
- Abstract(参考訳): Inverter-based Volt-Var Control (IB-VVC) のための参照モデル支援深部強化学習(DRL)を提案する。
大規模行動空間はDRLの学習困難を増大させ,データ生成やニューラルネットワークの学習過程における最適化性能を低下させる。
DRLの動作空間を低減するために,参照モデルを用いたDRLアプローチを設計する。
本稿では,参照モデルの定義,参照モデルに基づく最適化,参照アクションを紹介する。
参照モデル支援DRLは、最適なアクションを直接学習するのではなく、参照アクションと最適アクションの間の残留アクションを学習する。
残作用は参照モデルに対する最適作用よりもかなり小さいので、参照モデル支援DRLに対してより小さなアクション空間を設計することができる。
DRLの学習困難を軽減し、参照モデル支援DRLアプローチの性能を最適化する。
参照モデル支援DRLアプローチは、連続的なアクション問題に対するポリシー勾配DRLアルゴリズムと互換性がある。
この研究は、ソフトアクター批判アルゴリズムを例として、参照モデル支援ソフトアクター批判アルゴリズムを設計する。
シミュレーションによると
1)大アクションスペースは、訓練段階全体においてDRLの性能を低下させ、
2) 参照モデル支援DRLではイテレーション時間が少なくなり、より良い最適化性能が返される。
関連論文リスト
- The Impact of Quantization and Pruning on Deep Reinforcement Learning Models [1.5252729367921107]
深層強化学習(DRL)は、ビデオゲーム、ロボティクス、近年の大規模言語モデルなど、様々な領域で顕著な成功を収めている。
しかし、DRLモデルの計算コストとメモリ要求はリソース制約された環境への展開を制限することが多い。
本研究では,DRLモデルに対する量子化とプルーニングという2つの顕著な圧縮手法の影響について検討した。
論文 参考訳(メタデータ) (2024-07-05T18:21:17Z) - Reflect-RL: Two-Player Online RL Fine-Tuning for LMs [38.5495318990769]
オンライン強化学習(RL)と教師付き微調整(SFT)を用いた微調整言語モデル(LM)システムであるReflect-RLを提案する。
GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-20T01:04:21Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reinforcement Learning with Partial Parametric Model Knowledge [3.3598755777055374]
我々は,環境の完全無知と完全知識のギャップを埋めるために,継続的制御のための強化学習手法を適用した。
本手法は,モデルフリーRLとモデルベース制御の両方からインスピレーションを得て,PLSPI(Partial Knowledge Least Squares Policy Iteration)を提案する。
論文 参考訳(メタデータ) (2023-04-26T01:04:35Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。