論文の概要: A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2201.08445v1
- Date: Thu, 20 Jan 2022 20:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 21:48:51.413395
- Title: A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習を用いた記述型ディリクレ電力割当政策
- Authors: Yuan Tian, Minghao Han, Chetan Kulkarni, Olga Fink
- Abstract要約: 本研究では,連続的なアロケーションタスクに対するディリクレポリシを提案し,そのポリシー勾配のバイアスと分散を分析した。
ディリクレポリシはバイアスフリーであり,ガウス-ソフトマックスポリシよりもはるかに高速な収束と性能を提供することを示した。
実験の結果, 最適動作を規定し, 多出力電源システムの効率と持続可能性を向上させる可能性が示された。
- 参考スコア(独自算出の注目度): 6.003234406806134
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Prescribing optimal operation based on the condition of the system and,
thereby, potentially prolonging the remaining useful lifetime has a large
potential for actively managing the availability, maintenance and costs of
complex systems. Reinforcement learning (RL) algorithms are particularly
suitable for this type of problems given their learning capabilities. A special
case of a prescriptive operation is the power allocation task, which can be
considered as a sequential allocation problem, where the action space is
bounded by a simplex constraint. A general continuous action-space solution of
such sequential allocation problems has still remained an open research
question for RL algorithms. In continuous action-space, the standard Gaussian
policy applied in reinforcement learning does not support simplex constraints,
while the Gaussian-softmax policy introduces a bias during training. In this
work, we propose the Dirichlet policy for continuous allocation tasks and
analyze the bias and variance of its policy gradients. We demonstrate that the
Dirichlet policy is bias-free and provides significantly faster convergence,
better performance and better hyperparameters robustness over the
Gaussian-softmax policy. Moreover, we demonstrate the applicability of the
proposed algorithm on a prescriptive operation case, where we propose the
Dirichlet power allocation policy and evaluate the performance on a case study
of a set of multiple lithium-ion (Li-I) battery systems. The experimental
results show the potential to prescribe optimal operation, improve the
efficiency and sustainability of multi-power source systems.
- Abstract(参考訳): システムの条件に基づいて最適な操作を規定し、残りの有用な寿命を延ばすことは、複雑なシステムの可用性、メンテナンス、コストを積極的に管理する大きな可能性を秘めている。
強化学習(RL)アルゴリズムは、学習能力を考えると、この種の問題に特に適している。
規範的操作の特別な場合として、パワーアロケーションタスクがあり、これは、アクション空間が単純な制約によってバウンドされるシーケンシャルアロケーション問題とみなすことができる。
このようなシーケンシャル割り当て問題の一般的な連続的動作空間解は、rlアルゴリズムに対するオープンリサーチ問題として残されている。
連続行動空間では、強化学習に適用される標準ガウスポリシーは単純制約をサポートしないが、ガウス-ソフトマックスポリシーは訓練中にバイアスをもたらす。
本研究では,連続割り当てタスクに対するdirichletポリシーを提案し,そのバイアスとポリシー勾配のばらつきを分析した。
ディリクレポリシはバイアスフリーであり、ガウス-ソフトマックスポリシよりもはるかに高速な収束、より良い性能、より優れたハイパーパラメータロバスト性を提供する。
さらに,ディリクレの電力割当方針を提案し,複数のリチウムイオン電池システムを用いたケーススタディにおいて,提案アルゴリズムの適用性を示す。
実験結果は, 最適動作を規定する可能性を示し, 多電源電源システムの効率と持続可能性を改善した。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。
本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文 参考訳(メタデータ) (2023-01-21T11:30:13Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。