論文の概要: Green Simulation Assisted Policy Gradient to Accelerate Stochastic
Process Control
- arxiv url: http://arxiv.org/abs/2110.08902v1
- Date: Sun, 17 Oct 2021 19:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 08:41:37.073680
- Title: Green Simulation Assisted Policy Gradient to Accelerate Stochastic
Process Control
- Title(参考訳): 確率的プロセス制御を加速するためのグリーンシミュレーションによる政策勾配支援
- Authors: Hua Zheng, Wei Xie, M. Ben Feng
- Abstract要約: この研究は、高複雑性、高い不確実性、非常に限られたプロセスデータを含む、バイオ医薬品製造における重要な課題によって動機付けられている。
最適かつロバストなプロセス制御を支援するために,オンラインとオフラインの両方の学習環境を対象とした一般グリーンシミュレーション支援ポリシー勾配(GS-PG)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.351725070063454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study is motivated by the critical challenges in the biopharmaceutical
manufacturing, including high complexity, high uncertainty, and very limited
process data. Each experiment run is often very expensive. To support the
optimal and robust process control, we propose a general green simulation
assisted policy gradient (GS-PG) framework for both online and offline learning
settings. Basically, to address the key limitations of state-of-art
reinforcement learning (RL), such as sample inefficiency and low reliability,
we create a mixture likelihood ratio based policy gradient estimation that can
leverage on the information from historical experiments conducted under
different inputs, including process model coefficients and decision policy
parameters. Then, to accelerate the learning of optimal and robust policy, we
further propose a variance reduction based sample selection method that allows
GS-PG to intelligently select and reuse most relevant historical trajectories.
The selection rule automatically updates the samples to be reused during the
learning of process mechanisms and the search for optimal policy. Our
theoretical and empirical studies demonstrate that the proposed framework can
perform better than the state-of-art policy gradient approach and accelerate
the optimal robust process control for complex stochastic systems under high
uncertainty.
- Abstract(参考訳): この研究は、高い複雑さ、高い不確実性、非常に限られたプロセスデータを含む、バイオ医薬品製造における重要な課題に動機づけられている。
各実験は、しばしば非常に高価である。
最適かつロバストなプロセス制御を支援するために,オンラインとオフラインの両方の学習環境を対象とした一般グリーンシミュレーション支援ポリシー勾配(GS-PG)フレームワークを提案する。
基本的に、サンプル不効率や低信頼性といった最先端強化学習(RL)の鍵となる限界に対処するために、プロセスモデル係数や決定ポリシーパラメータなど、異なる入力下で実施された履歴実験からの情報を利用する混合可能性比に基づくポリシー勾配推定を作成する。
そして,最適かつロバストな政策の学習を促進するために,GS-PGが最も重要な歴史的軌跡をインテリジェントに選択・再利用できる分散還元に基づくサンプル選択法を提案する。
選択ルールは、プロセスメカニズムの学習と最適なポリシーの探索中に再利用されるサンプルを自動的に更新する。
我々の理論的および実証的研究は、提案手法が最先端の政策勾配法よりも優れた性能を示し、不確実性の高い複素確率系に対する最適ロバストなプロセス制御を加速できることを示した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Reusing Historical Trajectories in Natural Policy Gradient via
Importance Sampling: Convergence and Convergence Rate [8.943964058164257]
本研究では,重要度勾配サンプリングを用いて,歴史軌道を再利用した自然政策の変種について検討する。
勾配サンプリングの予測器のバイアスは勾配無視可能であり, 結果のアルゴリズムは収束し, 過去の軌道の再利用は収束率の向上に役立つことを示す。
論文 参考訳(メタデータ) (2024-03-01T17:08:30Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0657293044976894]
本稿では,最も関連性の高いサンプルを選択的に再利用し,政策勾配推定を改善する汎用分散還元型体験再生(VRER)フレームワークを提案する。
我々の理論的および実証的研究は、提案したVRERが最適なポリシーの学習を加速し、最先端のポリシー最適化アプローチの性能を高めることができることを示している。
論文 参考訳(メタデータ) (2022-08-25T20:51:00Z) - Variance Reduction based Partial Trajectory Reuse to Accelerate Policy
Gradient Optimization [3.621753051212441]
我々は,グリーンシミュレーション支援政策勾配(GS-PG)の考え方をマルコフ決定過程(MDP)の歴史的部分的再利用に拡張する。
本稿では、MLRに基づく政策勾配推定法を用いて、異なる行動方針の下で生成された歴史的状態決定遷移の情報を活用する。
論文 参考訳(メタデータ) (2022-05-06T01:42:28Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。