論文の概要: TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control
- arxiv url: http://arxiv.org/abs/2204.10685v1
- Date: Fri, 22 Apr 2022 13:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 17:40:12.942138
- Title: TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control
- Title(参考訳): TASAC: バッチプロセス制御のための確率的ポリシー付きツインアクタ強化学習フレームワーク
- Authors: Tanuja Joshi, Hariprasad Kodamanaa, Harikumar Kandath, and Niket
Kaisare
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
- 参考スコア(独自算出の注目度): 1.101002667958165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to their complex nonlinear dynamics and batch-to-batch variability, batch
processes pose a challenge for process control. Due to the absence of accurate
models and resulting plant-model mismatch, these problems become harder to
address for advanced model-based control strategies. Reinforcement Learning
(RL), wherein an agent learns the policy by directly interacting with the
environment, offers a potential alternative in this context. RL frameworks with
actor-critic architecture have recently become popular for controlling systems
where state and action spaces are continuous. It has been shown that an
ensemble of actor and critic networks further helps the agent learn better
policies due to the enhanced exploration due to simultaneous policy learning.
To this end, the current study proposes a stochastic actor-critic RL algorithm,
termed Twin Actor Soft Actor-Critic (TASAC), by incorporating an ensemble of
actors for learning, in a maximum entropy framework, for batch process control.
- Abstract(参考訳): 複雑な非線形ダイナミクスとバッチ間変動のため、バッチプロセスはプロセス制御に挑戦する。
正確なモデルがなく、結果として生じるプラントモデルミスマッチのため、これらの問題は高度なモデルベース制御戦略に対処するのが困難になる。
強化学習(rl)では、エージェントが環境と直接対話することでポリシーを学習し、この文脈で潜在的な選択肢を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクタと批評家のネットワークが合わさることで、同時政策学習による探索の強化により、エージェントはより優れたポリシーを学ぶことができることが示されている。
この目的のために、本研究では、バッチプロセス制御のための最大エントロピーフレームワークにアクターのアンサンブルを組み込むことにより、Twin Actor Soft Actor-Critic (TASAC)と呼ばれる確率的アクター批判RLアルゴリズムを提案する。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous
Control with Discrete RL [47.80205106726076]
本稿では,この制限を克服するために,ソフトRLとアクター批判技術を組み合わせたSDPCアーキテクチャを提案する。
SDPCは各アクション次元を独立に識別し、共有批評家ネットワークを用いてソフトな$Q$関数を最大化する。
提案手法は,MujocoのHumanoidやBox2dのBiWalkerなど,さまざまな連続制御タスクにおいて,最先端の連続RLアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-20T08:32:11Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Curriculum Based Reinforcement Learning of Grid Topology Controllers to
Prevent Thermal Cascading [0.19116784879310028]
本稿では,電力系統演算子のドメイン知識を強化学習フレームワークに統合する方法について述べる。
環境を改良することにより、報酬チューニングを伴うカリキュラムベースのアプローチをトレーニング手順に組み込む。
複数のシナリオに対する並列トレーニングアプローチは、エージェントをいくつかのシナリオに偏りなくし、グリッド操作の自然変動に対して堅牢にするために使用される。
論文 参考訳(メタデータ) (2021-12-18T20:32:05Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。