論文の概要: Green Simulation Assisted Reinforcement Learning with Model Risk for
Biomanufacturing Learning and Control
- arxiv url: http://arxiv.org/abs/2006.09919v1
- Date: Wed, 17 Jun 2020 14:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 18:56:44.944438
- Title: Green Simulation Assisted Reinforcement Learning with Model Risk for
Biomanufacturing Learning and Control
- Title(参考訳): バイオマニュファクチャリング学習と制御のためのモデルリスクを用いたグリーンシミュレーション支援強化学習
- Authors: Hua Zheng, Wei Xie and Mingbin Ben Feng
- Abstract要約: バイオ医薬品製造は、複雑さ、高い可変性、長いリードタイム、基礎となるシステムプロセスに関する限られた歴史的データや知識など、重要な課題に直面している。
これらの課題に対処するため,オンライン学習のプロセス支援と動的意思決定の指導を支援するため,グリーンシミュレーションを用いたモデルベース強化学習を提案する。
- 参考スコア(独自算出の注目度): 3.0657293044976894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biopharmaceutical manufacturing faces critical challenges, including
complexity, high variability, lengthy lead time, and limited historical data
and knowledge of the underlying system stochastic process. To address these
challenges, we propose a green simulation assisted model-based reinforcement
learning to support process online learning and guide dynamic decision making.
Basically, the process model risk is quantified by the posterior distribution.
At any given policy, we predict the expected system response with prediction
risk accounting for both inherent stochastic uncertainty and model risk. Then,
we propose green simulation assisted reinforcement learning and derive the
mixture proposal distribution of decision process and likelihood ratio based
metamodel for the policy gradient, which can selectively reuse process
trajectory outputs collected from previous experiments to increase the
simulation data-efficiency, improve the policy gradient estimation accuracy,
and speed up the search for the optimal policy. Our numerical study indicates
that the proposed approach demonstrates the promising performance.
- Abstract(参考訳): バイオ医薬品製造は、複雑さ、高い変動性、長いリードタイム、限られた歴史データと基礎となるシステム確率過程に関する知識といった重要な課題に直面している。
これらの課題に対処するために,グリーンシミュレーション支援モデルに基づく強化学習を提案し,オンライン学習のプロセスと動的意思決定のガイドを行う。
基本的に、プロセスモデルリスクは後方分布によって定量化される。
いずれの政策においても,確率的不確実性とモデルリスクの両方を考慮した予測リスクを伴う予測システム応答を予測する。
次に,グリーンシミュレーション支援強化学習を提案し,過去の実験から収集したプロセス軌道出力を選択的に再利用し,シミュレーションデータ効率を高め,政策勾配推定精度を向上し,最適方針の探索を高速化できる,政策勾配に対する決定過程と確率比に基づくメタモデルの混合分布を導出する。
本研究では,提案手法が有望な性能を示すことを示す。
関連論文リスト
- Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Mind the Uncertainty: Risk-Aware and Actively Exploring Model-Based
Reinforcement Learning [26.497229327357935]
トラジェクティブサンプリングを用いたモデルベース強化学習におけるリスク管理手法を提案する。
実験により、不確実性の分離は、不確実かつ安全クリティカルな制御環境において、データ駆動型アプローチとうまく連携するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-09-11T16:10:58Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Predicting Hurricane Evacuation Decisions with Interpretable Machine
Learning Models [0.0]
本研究では,容易にアクセス可能な人口動態と資源関連予測器によって構築された世帯の避難決定を予測するための新しい手法を提案する。
提案手法は,避難交通需要の推計を改善するため,緊急管理当局に新たなツールと枠組みを提供する可能性がある。
論文 参考訳(メタデータ) (2023-03-12T03:45:44Z) - Risk-Sensitive Reinforcement Learning with Exponential Criteria [0.0]
我々は、堅牢な強化学習ポリシーを定義し、リスクに敏感な強化学習問題を定式化し、それらを近似する。
本稿では,近似更新を用いた乗算ベルマン方程式の解法に基づく新しいオンラインアクター・クリティカルアルゴリズムを提案する。
シミュレーション実験により,提案手法の実装,性能,ロバスト性を評価した。
論文 参考訳(メタデータ) (2022-12-18T04:44:38Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。