論文の概要: A Data-Driven Model-Reference Adaptive Control Approach Based on
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.09994v1
- Date: Fri, 17 Mar 2023 14:10:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 14:27:11.929584
- Title: A Data-Driven Model-Reference Adaptive Control Approach Based on
Reinforcement Learning
- Title(参考訳): 強化学習に基づくデータ駆動型モデル参照適応制御手法
- Authors: Mohammed Abouheaf, Wail Gueaieb, Davide Spinello and Salah Al-Sharhan
- Abstract要約: ここではモデル参照適応解が自律系に対して開発され、ハミルトン・ヤコビ・ベルマン方程式の誤差に基づく構造を解く。
これは、制御戦略におけるプロセスまたは参照モデルのダイナミクスを知らずにリアルタイムに行われる。
- 参考スコア(独自算出の注目度): 4.817429789586126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-reference adaptive systems refer to a consortium of techniques that
guide plants to track desired reference trajectories. Approaches based on
theories like Lyapunov, sliding surfaces, and backstepping are typically
employed to advise adaptive control strategies. The resulting solutions are
often challenged by the complexity of the reference model and those of the
derived control strategies. Additionally, the explicit dependence of the
control strategies on the process dynamics and reference dynamical models may
contribute in degrading their efficiency in the face of uncertain or unknown
dynamics. A model-reference adaptive solution is developed here for autonomous
systems where it solves the Hamilton-Jacobi-Bellman equation of an error-based
structure. The proposed approach describes the process with an integral
temporal difference equation and solves it using an integral reinforcement
learning mechanism. This is done in real-time without knowing or employing the
dynamics of either the process or reference model in the control strategies. A
class of aircraft is adopted to validate the proposed technique.
- Abstract(参考訳): モデル参照適応システム(model-reference adaptive systems)は、植物が所望の参照軌道を追跡する手法のコンソーシアムである。
リアプノフ、滑り面、バックステッピングなどの理論に基づくアプローチは、適応制御戦略を助言するために一般的に用いられる。
結果として得られる解は、しばしば参照モデルの複雑さと派生した制御戦略によって挑戦される。
さらに、プロセス力学と参照力学モデルに対する制御戦略の明示的な依存は、不確実または未知のダイナミクスに直面して効率を低下させるのに寄与する。
ここではモデル参照適応解が自律系に対して開発され、ハミルトン・ヤコビ・ベルマン方程式の誤差に基づく構造を解く。
提案手法では, 積分時間差分方程式を用いてその過程を記述し, 積分強化学習機構を用いて解く。
これは、制御戦略においてプロセスまたは参照モデルのダイナミクスを知らずに、リアルタイムで行われる。
提案手法を検証するために航空機の種類が採用された。
関連論文リスト
- Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the
Autonomous Control of Flock Systems [4.961066282705832]
この研究は、群集システムの自律制御に適応的な分散ロバスト性技術を導入している。
比較的柔軟な構造は、様々な目的を同時に狙うオンラインファジィ強化学習スキームに基づいている。
動的障害に直面した場合のレジリエンスに加えて、アルゴリズムはフィードバック信号としてエージェントの位置以上のものを必要としない。
論文 参考訳(メタデータ) (2023-03-17T13:07:35Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Structured Hammerstein-Wiener Model Learning for Model Predictive
Control [0.2752817022620644]
本稿では,機械学習によって構築されたモデルを用いて最適制御の信頼性を向上させることを目的とする。
本稿では,Hammerstein-Wienerモデルと凸ニューラルネットワークを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2021-07-09T06:41:34Z) - Trajectory Tracking of Underactuated Sea Vessels With Uncertain
Dynamics: An Integral Reinforcement Learning Approach [2.064612766965483]
積分強化学習に基づくオンライン機械学習メカニズムを提案し,非線形追跡問題のクラスに対する解を求める。
このソリューションは、適応的批評家と勾配降下アプローチを用いて実現されるオンライン価値反復プロセスを用いて実装される。
論文 参考訳(メタデータ) (2021-04-01T01:41:49Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Data Driven Control with Learned Dynamics: Model-Based versus Model-Free
Approach [0.0]
モデルベースとモデルフリーの2種類のデータ駆動制御手法を比較した。
最近提案されたDeep Koopman Representation for Control (DKRC)は、未知の非線形力学系を高次元線形系にマッピングするためにディープニューラルネットワークを利用する。
もう1つは、アクター批判アーキテクチャに基づく古典的なモデルフリー制御手法である、Deep Deterministic Policy Gradient (DDPG)は、様々な力学系で有効であることが証明されている。
論文 参考訳(メタデータ) (2020-06-16T22:18:21Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。