論文の概要: Trustworthy Reinforcement Learning for Quadrotor UAV Tracking Control
Systems
- arxiv url: http://arxiv.org/abs/2302.11694v3
- Date: Sat, 10 Feb 2024 22:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 01:17:34.913924
- Title: Trustworthy Reinforcement Learning for Quadrotor UAV Tracking Control
Systems
- Title(参考訳): 四角形uav追跡制御系の信頼性強化学習
- Authors: Yanran Wang and David Boyle
- Abstract要約: 本研究では, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクトリトラッカーを提案する。
提案手法は, 空気力学効果の真値と推定値の不確かさを正確に同定する。
本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。
- 参考スコア(独自算出の注目度): 2.7467053150385956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneously accurate and reliable tracking control for quadrotors in
complex dynamic environments is challenging. As aerodynamics derived from drag
forces and moment variations are chaotic and difficult to precisely identify,
most current quadrotor tracking systems treat them as simple `disturbances' in
conventional control approaches. We propose a novel, interpretable trajectory
tracker integrating a Distributional Reinforcement Learning disturbance
estimator for unknown aerodynamic effects with a Stochastic Model Predictive
Controller (SMPC). The proposed estimator `Constrained Distributional
Reinforced disturbance estimator' (ConsDRED) accurately identifies
uncertainties between true and estimated values of aerodynamic effects.
Simplified Affine Disturbance Feedback is used for control parameterization to
guarantee convexity, which we then integrate with a SMPC. We theoretically
guarantee that ConsDRED achieves at least an optimal global convergence rate
and a certain sublinear rate if constraints are violated with an error
decreases as the width and the layer of neural network increase. To demonstrate
practicality, we show convergent training in simulation and real-world
experiments, and empirically verify that ConsDRED is less sensitive to
hyperparameter settings compared with canonical constrained RL approaches. We
demonstrate our system improves accumulative tracking errors by at least 70%
compared with the recent art. Importantly, the proposed framework,
ConsDRED-SMPC, balances the tradeoff between pursuing high performance and
obeying conservative constraints for practical implementations
- Abstract(参考訳): 複雑な動的環境における四重項の同時的かつ信頼性の高い追跡制御は困難である。
抵抗力やモーメントの変動から導かれる空気力学はカオス的であり、正確に識別することは困難であるため、現在の四重項追跡システムは従来の制御手法では単純な「乱」として扱う。
確率モデル予測制御器 (SMPC) を用いて, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクタを提案する。
提案手法は空力効果の真の値と推定値の間の不確かさを正確に同定するものである。
単純なアフィン外乱フィードバックは、凸性を保証するために制御パラメータ化に使われ、SMPCと統合する。
ニューラルネットワークの幅と層が増加するにつれて、制約が誤差に反した場合、ConsDREDが少なくとも最適な大域収束率と一定のサブ線形レートを達成することを理論的に保証する。
実用性を示すため,シミュレーションおよび実世界の実験において収束トレーニングを行い,ConsDREDが標準制約RLアプローチに比べてハイパーパラメータ設定に敏感でないことを実証的に検証した。
本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。
重要なことは、提案されたフレームワークであるConsDRED-SMPCは、高性能の追求と実用的な実装に対する保守的な制約に従うというトレードオフのバランスをとることである。
関連論文リスト
- Custom Non-Linear Model Predictive Control for Obstacle Avoidance in Indoor and Outdoor Environments [0.0]
本稿では,DJI行列100のための非線形モデル予測制御(NMPC)フレームワークを提案する。
このフレームワークは様々なトラジェクトリタイプをサポートし、厳密な操作の精度を制御するためにペナルティベースのコスト関数を採用している。
論文 参考訳(メタデータ) (2024-10-03T17:50:19Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Over-the-Air Federated Learning and Optimization [52.5188988624998]
エッジ・ザ・エア計算(AirComp)によるフェデレーション学習(FL)に焦点を当てる。
本稿では,AirComp ベースの FedAvg (AirFedAvg) アルゴリズムの凸および非凸条件下での収束について述べる。
エッジデバイス(モデル、勾配、モデル差など)で送信できるローカルアップデートの種類によって、AirFedAvgで送信するとアグリゲーションエラーが発生する可能性がある。
さらに、より実用的な信号処理方式を検討し、通信効率を改善し、これらの信号処理方式によって引き起こされるモデル集約誤差の異なる形式に収束解析を拡張する。
論文 参考訳(メタデータ) (2023-10-16T05:49:28Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Interpretable Stochastic Model Predictive Control using Distributional
Reinforced Estimation for Quadrotor Tracking Systems [0.8411385346896411]
本研究では,動的・複雑環境下での自律的四角形ナビゲーションのためのトラジェクトリトラッカーを提案する。
提案フレームワークは,未知の空力効果に対する分散強化学習推定器をモデル予測制御器に統合する。
我々は,未知かつ多様な空気力を用いて,累積追従誤差を少なくとも66%改善するシステムを実証した。
論文 参考訳(メタデータ) (2022-05-14T23:27:38Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Guaranteed Trajectory Tracking under Learned Dynamics with Contraction Metrics and Disturbance Estimation [5.147919654191323]
本稿では,制約指標と外乱推定に基づく軌道中心学習制御へのアプローチを提案する。
提案するフレームワークは、平面四重項の例で検証される。
論文 参考訳(メタデータ) (2021-12-15T15:57:33Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Certainty Equivalent Perception-Based Control [29.216967322052785]
動的に達成可能な高密度サンプリングスキームの下で,非カーネル回帰に拘束される一様誤差を示す。
これにより、経路追跡のためにクローズドループの回帰器を使用する場合の準最適性に対する有限時間収束率が得られる。
論文 参考訳(メタデータ) (2020-08-27T18:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。