論文の概要: Extended Radial Basis Function Controller for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.05866v2
- Date: Wed, 9 Dec 2020 06:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 07:49:38.994613
- Title: Extended Radial Basis Function Controller for Reinforcement Learning
- Title(参考訳): 強化学習のための拡張ラジアル基底関数制御
- Authors: Nicholas Capel, Naifu Zhang
- Abstract要約: 本稿では,モデルベース線形コントローラと任意の微分可能なポリシを動的に補間するハイブリッド強化学習コントローラを提案する。
線形制御器は、局所線形化モデル知識に基づいて設計され、運転点付近のシステムを安定化する。
学習はモデルベース(PILCO)とモデルフリー(DDPG)の両方のフレームワークで行われている。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been attempts in reinforcement learning to exploit a priori
knowledge about the structure of the system. This paper proposes a hybrid
reinforcement learning controller which dynamically interpolates a model-based
linear controller and an arbitrary differentiable policy. The linear controller
is designed based on local linearised model knowledge, and stabilises the
system in a neighbourhood about an operating point. The coefficients of
interpolation between the two controllers are determined by a scaled distance
function measuring the distance between the current state and the operating
point. The overall hybrid controller is proven to maintain the stability
guarantee around the neighborhood of the operating point and still possess the
universal function approximation property of the arbitrary non-linear policy.
Learning has been done on both model-based (PILCO) and model-free (DDPG)
frameworks. Simulation experiments performed in OpenAI gym demonstrate
stability and robustness of the proposed hybrid controller. This paper thus
introduces a principled method allowing for the direct importing of control
methodology into reinforcement learning.
- Abstract(参考訳): システムの構造に関する事前知識を活用するための強化学習の試みがある。
本稿では,モデルベース線形コントローラと任意の微分可能なポリシを動的に補間するハイブリッド強化学習コントローラを提案する。
線形制御器は局所線形化モデル知識に基づいて設計され,操作点付近でシステムの安定化を行う。
2つのコントローラ間の補間係数は、電流状態と動作点の間の距離を測定するスケールド距離関数によって決定される。
全体のハイブリッド制御器は動作点近傍の安定性を保証することが証明され、任意の非線形ポリシーの普遍関数近似特性が保たれている。
学習はモデルベース(PILCO)とモデルフリー(DDPG)の両方のフレームワークで行われている。
openai gymで行ったシミュレーション実験は,提案するハイブリッドコントローラの安定性とロバスト性を示している。
そこで本稿では,強化学習に制御手法を直接インポートする原理的手法を提案する。
関連論文リスト
- Random Features Approximation for Control-Affine Systems [6.067043299145924]
制御アフィン構造をキャプチャする非線形特徴表現の2つの新しいクラスを提案する。
提案手法はランダムな特徴(RF)近似を用いて,より少ない計算コストでカーネル手法の表現性を継承する。
論文 参考訳(メタデータ) (2024-06-10T17:54:57Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - A stabilizing reinforcement learning approach for sampled systems with
partially unknown models [0.0]
純粋オンライン学習環境におけるシステム制御器閉ループの実用的安定性を保証する手法を提案する。
要求された結果を達成するため、我々は古典的な適応制御技術を採用する。
この方法は適応的なトラクション制御とクルーズ制御でテストされ、コストを大幅に削減することが判明した。
論文 参考訳(メタデータ) (2022-08-31T09:20:14Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Neural Lyapunov Differentiable Predictive Control [2.042924346801313]
本稿では、確率的リアプノフに基づく安定性保証を備えた微分可能なプログラミングフレームワークを用いた学習に基づく予測制御手法を提案する。
この手法は、安定な力学で状態空間の領域を認証するリアプノフ関数を共同で学習する。
論文 参考訳(メタデータ) (2022-05-22T03:52:27Z) - Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models [16.511440197186918]
モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。
閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。
検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
論文 参考訳(メタデータ) (2022-05-11T22:03:18Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Online Algorithms and Policies Using Adaptive and Machine Learning
Approaches [0.22020053359163297]
非線形力学系の2つのクラスが考慮され、どちらも制御アフィンである。
本稿では,外ループにおける強化学習に基づくポリシーの組み合わせを,名目力学の安定性と最適性を確保するために好適に選択する。
リアルタイム制御による安定性保証の確立に加えて、AC-RLコントローラは、持続的な励振を伴うパラメータ学習につながることも示している。
論文 参考訳(メタデータ) (2021-05-13T22:51:25Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Reinforcement Learning for Safety-Critical Control under Model
Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。
RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文 参考訳(メタデータ) (2020-04-16T10:51:33Z) - Pontryagin Differentiable Programming: An End-to-End Learning and
Control Framework [108.4560749465701]
ポントリャーギン微分プログラミングの方法論は、幅広い種類の学習と制御タスクを解決するための統一されたフレームワークを確立する。
本研究では, PDP の逆強化学習, システム識別, 制御・計画の3つの学習モードについて検討する。
マルチリンクロボットアーム,6-DoFオペレーティングクオーロレータ,6-DoFロケット搭載着陸など,多次元システムにおける学習モード毎のPDPの能力を示す。
論文 参考訳(メタデータ) (2019-12-30T15:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。