論文の概要: A stabilizing reinforcement learning approach for sampled systems with
partially unknown models
- arxiv url: http://arxiv.org/abs/2208.14714v1
- Date: Wed, 31 Aug 2022 09:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 14:02:36.626725
- Title: A stabilizing reinforcement learning approach for sampled systems with
partially unknown models
- Title(参考訳): 部分未知モデルを用いたサンプルシステムの安定化強化学習手法
- Authors: Lukas Beckenbach, Pavel Osinenko, Stefan Streif
- Abstract要約: 純粋オンライン学習環境におけるシステム制御器閉ループの実用的安定性を保証する手法を提案する。
要求された結果を達成するため、我々は古典的な適応制御技術を採用する。
この方法は適応的なトラクション制御とクルーズ制御でテストされ、コストを大幅に削減することが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning is commonly associated with training of
reward-maximizing (or cost-minimizing) agents, in other words, controllers. It
can be applied in model-free or model-based fashion, using a priori or online
collected system data to train involved parametric architectures. In general,
online reinforcement learning does not guarantee closed loop stability unless
special measures are taken, for instance, through learning constraints or
tailored training rules. Particularly promising are hybrids of reinforcement
learning with "classical" control approaches. In this work, we suggest a method
to guarantee practical stability of the system-controller closed loop in a
purely online learning setting, i.e., without offline training. Moreover, we
assume only partial knowledge of the system model. To achieve the claimed
results, we employ techniques of classical adaptive control. The implementation
of the overall control scheme is provided explicitly in a digital, sampled
setting. That is, the controller receives the state of the system and computes
the control action at discrete, specifically, equidistant moments in time. The
method is tested in adaptive traction control and cruise control where it
proved to significantly reduce the cost.
- Abstract(参考訳): 強化学習は一般的に報酬を最大化する(またはコストを最小化する)エージェントの訓練と結びついている。
モデルフリーまたはモデルベースで、事前またはオンライン収集されたシステムデータを使用して、関連するパラメトリックアーキテクチャをトレーニングすることができる。
一般に、オンライン強化学習は、例えば学習制約や調整されたトレーニングルールを通じて特別な措置が講じられない限り、閉ループ安定性を保証しない。
特に有望なのは、強化学習と古典的な制御アプローチのハイブリッドである。
本研究では,オフライントレーニングを行わずに,純粋にオンライン学習環境におけるシステムコントローラクローズドループの実用的安定性を保証する手法を提案する。
さらに,システムモデルの部分的知識のみを仮定する。
この結果を達成するために,古典的適応制御の手法を用いる。
全体制御方式の実装は、デジタルサンプル設定で明示的に提供される。
すなわち、コントローラはシステムの状態を受信し、制御アクションを離散的、具体的には同値なモーメントで計算する。
この方法は適応トラクション制御とクルーズ制御でテストされ、コストを大幅に削減することができた。
関連論文リスト
- Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model
Predictive Control [49.60520501097199]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Learning-based vs Model-free Adaptive Control of a MAV under Wind Gust [0.2770822269241973]
未知の条件下でのナビゲーション問題は、制御分野において最も重要でよく研究されている問題の一つである。
近年のモデルフリー適応制御法は, センサフィードバックから直接植物の物理的特性を学習することにより, この依存を除去することを目的としている。
提案手法は,深い強化学習フレームワークによって頑健に調整された完全状態フィードバックコントローラからなる,概念的にシンプルな学習ベースアプローチを提案する。
論文 参考訳(メタデータ) (2021-01-29T10:13:56Z) - Extended Radial Basis Function Controller for Reinforcement Learning [3.42658286826597]
本稿では,モデルベース線形コントローラと任意の微分可能なポリシを動的に補間するハイブリッド強化学習コントローラを提案する。
線形制御器は、局所線形化モデル知識に基づいて設計され、運転点付近のシステムを安定化する。
学習はモデルベース(PILCO)とモデルフリー(DDPG)の両方のフレームワークで行われている。
論文 参考訳(メタデータ) (2020-09-12T20:56:48Z) - Fault-Tolerant Control of Degrading Systems with On-Policy Reinforcement
Learning [1.8799681615947088]
耐障害性システムに対する適応型強化学習制御手法を提案する。
オンラインとオフラインの学習は、探索とサンプル効率を改善するために組み合わせられる。
本手法の有効性を実証するため,航空機用燃料輸送システムの実験を行った。
論文 参考訳(メタデータ) (2020-08-10T20:42:59Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Model-Reference Reinforcement Learning Control of Autonomous Surface
Vehicles with Uncertainties [1.7033108359337459]
提案した制御は,従来の制御手法と深層強化学習を組み合わせたものである。
強化学習により,不確かさのモデリングを補うための制御法を直接学習することができる。
従来の深層強化学習法と比較して,提案した学習に基づく制御は安定性を保証し,サンプル効率を向上することができる。
論文 参考訳(メタデータ) (2020-03-30T22:02:13Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。