論文の概要: Trajectory Tracking of Underactuated Sea Vessels With Uncertain
Dynamics: An Integral Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2104.00190v1
- Date: Thu, 1 Apr 2021 01:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:46:53.645974
- Title: Trajectory Tracking of Underactuated Sea Vessels With Uncertain
Dynamics: An Integral Reinforcement Learning Approach
- Title(参考訳): 不確かさを考慮した不動船舶の軌道追尾 -積分強化学習アプローチ-
- Authors: Mohammed Abouheaf, Wail Gueaieb, Md. Suruz Miah, Davide Spinello
- Abstract要約: 積分強化学習に基づくオンライン機械学習メカニズムを提案し,非線形追跡問題のクラスに対する解を求める。
このソリューションは、適応的批評家と勾配降下アプローチを用いて実現されるオンライン価値反復プロセスを用いて実装される。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Underactuated systems like sea vessels have degrees of motion that are
insufficiently matched by a set of independent actuation forces. In addition,
the underlying trajectory-tracking control problems grow in complexity in order
to decide the optimal rudder and thrust control signals. This enforces several
difficult-to-solve constraints that are associated with the error dynamical
equations using classical optimal tracking and adaptive control approaches. An
online machine learning mechanism based on integral reinforcement learning is
proposed to find a solution for a class of nonlinear tracking problems with
partial prior knowledge of the system dynamics. The actuation forces are
decided using innovative forms of temporal difference equations relevant to the
vessel's surge and angular velocities. The solution is implemented using an
online value iteration process which is realized by employing means of the
adaptive critics and gradient descent approaches. The adaptive learning
mechanism exhibited well-functioning and interactive features in react to
different desired reference-tracking scenarios.
- Abstract(参考訳): 船舶のような未作動のシステムは、独立した作動力によって十分に一致しない動きの度合いを持っている。
さらに、最適舵と推力制御信号を決定するために、下層の軌道追従制御問題が複雑化する。
これにより、古典的最適追従法と適応制御法を用いて、誤差力学方程式に付随する難解ないくつかの制約を課す。
統合強化学習に基づくオンライン機械学習機構を提案し,システム力学の部分的事前知識を用いた非線形追跡問題の解法を提案する。
作動力は、容器のサージと角速度に関連する革新的な時間差方程式を用いて決定される。
このソリューションは、適応的批評家と勾配降下アプローチを用いて実現されるオンライン価値反復プロセスを用いて実装される。
適応学習機構は、望ましい参照追跡シナリオに反応して、よく機能し、対話的な特徴を示した。
関連論文リスト
- Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - A Data-Driven Model-Reference Adaptive Control Approach Based on
Reinforcement Learning [4.817429789586126]
ここではモデル参照適応解が自律系に対して開発され、ハミルトン・ヤコビ・ベルマン方程式の誤差に基づく構造を解く。
これは、制御戦略におけるプロセスまたは参照モデルのダイナミクスを知らずにリアルタイムに行われる。
論文 参考訳(メタデータ) (2023-03-17T14:10:52Z) - An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the
Autonomous Control of Flock Systems [4.961066282705832]
この研究は、群集システムの自律制御に適応的な分散ロバスト性技術を導入している。
比較的柔軟な構造は、様々な目的を同時に狙うオンラインファジィ強化学習スキームに基づいている。
動的障害に直面した場合のレジリエンスに加えて、アルゴリズムはフィードバック信号としてエージェントの位置以上のものを必要としない。
論文 参考訳(メタデータ) (2023-03-17T13:07:35Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。