論文の概要: Adaptive Gain Scheduling using Reinforcement Learning for Quadcopter
Control
- arxiv url: http://arxiv.org/abs/2403.07216v1
- Date: Tue, 12 Mar 2024 00:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:24:24.726397
- Title: Adaptive Gain Scheduling using Reinforcement Learning for Quadcopter
Control
- Title(参考訳): クワッドコプター制御のための強化学習を用いた適応ゲインスケジューリング
- Authors: Mike Timmerman, Aryan Patel, Tim Reinhart
- Abstract要約: 本稿では, クアッドコプター制御器の制御利得を適応させるために, 強化学習を用いた手法を提案する。
このコントローラの第一の目的は、特定の軌跡を辿りながらトラッキングエラーを最小限にすることである。
その結果,適応利得方式は静的利得制御器と比較して40$%以上の追従誤差を減少させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The paper presents a technique using reinforcement learning (RL) to adapt the
control gains of a quadcopter controller. Specifically, we employed Proximal
Policy Optimization (PPO) to train a policy which adapts the gains of a
cascaded feedback controller in-flight. The primary goal of this controller is
to minimize tracking error while following a specified trajectory. The paper's
key objective is to analyze the effectiveness of the adaptive gain policy and
compare it to the performance of a static gain control algorithm, where the
Integral Squared Error and Integral Time Squared Error are used as metrics. The
results show that the adaptive gain scheme achieves over 40$\%$ decrease in
tracking error as compared to the static gain controller.
- Abstract(参考訳): 本稿では、強化学習(RL)を用いて、クワッドコプタコントローラの制御ゲインを適応させる手法を提案する。
具体的には,PPO(Proximal Policy Optimization)を用いて,ケースドフィードバックコントローラの利益を飛行中に適応させる政策を訓練した。
このコントローラの主な目標は、指定された軌道に従って追跡エラーを最小限に抑えることである。
この論文の重要な目的は、適応ゲインポリシーの有効性を分析し、積分二乗誤差と積分時間二乗誤差を指標として用いる静的ゲイン制御アルゴリズムの性能と比較することである。
その結果,適応利得方式は静的利得制御器と比較して40$\%以上の追従誤差を減少させることがわかった。
関連論文リスト
- Designing a Robust Low-Level Agnostic Controller for a Quadrotor with
Actor-Critic Reinforcement Learning [0.38073142980732994]
ソフトアクター・クリティカルに基づく低レベルウェイポイント誘導制御器の訓練段階におけるドメインランダム化を提案する。
トレーニング中の四元数力学に一定の不確実性を導入することにより、より大規模な四元数パラメータを用いて提案課題を実行することができる制御器が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T14:58:19Z) - Training Efficient Controllers via Analytic Policy Gradient [44.0762454494769]
ロボットシステムの制御設計は複雑であり、しばしば軌道を正確に追従するために最適化を解く必要がある。
Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。
本稿では,この問題に対処するための分析政策グラディエント(APG)手法を提案する。
論文 参考訳(メタデータ) (2022-09-26T22:04:35Z) - Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文 参考訳(メタデータ) (2022-09-11T13:01:14Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - Safe and Efficient Model-free Adaptive Control via Bayesian Optimization [39.962395119933596]
適応制御のための純粋データ駆動型モデルフリーアプローチを提案する。
システムデータのみに基づく低レベルコントローラのチューニングは、アルゴリズムの安全性と計算性能に懸念を生じさせる。
我々は,提案手法がサンプル効率であり,安全性の観点から制約ベイズ最適化よりも優れており,グリッド評価によって計算された性能オプティマを達成することを数値的に示す。
論文 参考訳(メタデータ) (2021-01-19T19:15:00Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Adaptive Optimal Trajectory Tracking Control Applied to a Large-Scale
Ball-on-Plate System [0.0]
ADPを用いた大規模ボール・オン・プレートシステムのための最適軌道追従制御器を提案する。
提案手法では,セットポイントトラッキングの代わりに参照軌道を近似し,一定のオフセット項を自動的に補償することができる。
実験の結果, このトラッキング機構は, セットポイントコントローラに比べて制御コストを大幅に削減することがわかった。
論文 参考訳(メタデータ) (2020-10-26T11:22:03Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。