論文の概要: Meta-Reinforcement Learning for Adaptive Control of Second Order Systems
- arxiv url: http://arxiv.org/abs/2209.09301v1
- Date: Mon, 19 Sep 2022 18:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-21 18:00:43.935223
- Title: Meta-Reinforcement Learning for Adaptive Control of Second Order Systems
- Title(参考訳): 2次システムの適応制御のためのメタ強化学習
- Authors: Daniel G. McClement, Nathan P. Lawrence, Michael G. Forbes, Philip D.
Loewen, Johan U. Backstr\"om, R. Bhushan Gopaluni
- Abstract要約: プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。
本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。
重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
- 参考スコア(独自算出の注目度): 3.131740922192114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-learning is a branch of machine learning which aims to synthesize data
from a distribution of related tasks to efficiently solve new ones. In process
control, many systems have similar and well-understood dynamics, which suggests
it is feasible to create a generalizable controller through meta-learning. In
this work, we formulate a meta reinforcement learning (meta-RL) control
strategy that takes advantage of known, offline information for training, such
as a model structure. The meta-RL agent is trained over a distribution of model
parameters, rather than a single model, enabling the agent to automatically
adapt to changes in the process dynamics while maintaining performance. A key
design element is the ability to leverage model-based information offline
during training, while maintaining a model-free policy structure for
interacting with new environments. Our previous work has demonstrated how this
approach can be applied to the industrially-relevant problem of tuning
proportional-integral controllers to control first order processes. In this
work, we briefly reintroduce our methodology and demonstrate how it can be
extended to proportional-integral-derivative controllers and second order
systems.
- Abstract(参考訳): メタラーニング(meta-learning)は、関連するタスクの分布からデータを合成し、新しいタスクを効率的に解くことを目的とした機械学習の分野である。
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。
本研究では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。
メタRLエージェントは、単一のモデルではなくモデルパラメータの分布に基づいてトレーニングされ、パフォーマンスを維持しながら、プロセスのダイナミクスの変化に自動的に適応することができる。
重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
先程の研究では, 1次プロセスを制御するために比例積分制御器をチューニングする工業的問題に対して, このアプローチが適用可能であることを実証した。
そこで本研究では,本手法を簡潔に導入し,比例積分導出制御系と二階系に拡張する方法を実証する。
関連論文リスト
- Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - Unified Off-Policy Learning to Rank: a Reinforcement Learning
Perspective [61.4025671743675]
メソッドをランク付けするオフポリシー学習は、ユーザがクリックデータを生成する方法に関して、強い仮定をすることが多い。
オフライン強化学習は,複雑なデバイアス手法や事前知識を使わずに,様々なクリックモデルに適応できることを示す。
様々な大規模データセットの結果から、CUOLRはアルゴリズムのランク付けに最先端のオフポリシー学習を一貫して上回っていることが示される。
論文 参考訳(メタデータ) (2023-06-13T03:46:22Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Meta Reinforcement Learning for Adaptive Control: An Offline Approach [3.131740922192114]
トレーニングにおいて、既知のオフライン情報を活用するメタ強化学習(meta-RL)制御戦略を定式化する。
我々のメタRLエージェントはリカレントな構造を持ち、隠された状態変数を通して現在のダイナミックスに対して"コンテキスト"を蓄積します。
ここで報告されたテストでは、メタRLエージェントは完全にオフラインで訓練されたが、新しい設定で優れた結果が得られた。
論文 参考訳(メタデータ) (2022-03-17T23:58:52Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - A Meta-Reinforcement Learning Approach to Process Control [3.9146761527401424]
メタラーニングは、ニューラルネットワークなどのモデルを迅速に適応させ、新しいタスクを実行することを目的としています。
制御器を構築し,別の埋め込みニューラルネットワークを用いて潜在コンテキスト変数を用いて制御器をメタトレーニングする。
どちらの場合も、メタラーニングアルゴリズムは新しいタスクに非常に迅速に適応し、ゼロから訓練された通常のDRLコントローラよりも優れています。
論文 参考訳(メタデータ) (2021-03-25T18:20:56Z) - Meta Learning MPC using Finite-Dimensional Gaussian Process
Approximations [0.9539495585692008]
制御における学習手法の実践的適用性を阻害する2つの重要な要因は、その計算複雑性と、目に見えない条件に対する限定的な一般化能力である。
本稿では,従来のタスクからのデータを活用するシステムモデルを学習することにより,適応型モデル予測制御のためのメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-08-13T15:59:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。