論文の概要: Model-Free versus Model-Based Reinforcement Learning for Fixed-Wing UAV
Attitude Control Under Varying Wind Conditions
- arxiv url: http://arxiv.org/abs/2409.17896v1
- Date: Thu, 26 Sep 2024 14:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 17:47:25.921890
- Title: Model-Free versus Model-Based Reinforcement Learning for Fixed-Wing UAV
Attitude Control Under Varying Wind Conditions
- Title(参考訳): 固定翼UAVにおけるモデルフリー対モデルベース強化学習
風環境下における姿勢制御
- Authors: David Olivares, Pierre Fournier, Pavan Vasishta, Julien Marzat
- Abstract要約: 本稿では、PIDを基準点として、固定翼無人航空機の姿勢制御のためのモデルフリーおよびモデルベース強化学習の性能を評価し、比較する。
その結果, 時間差モデル予測制御は, PIDコントローラと他のモデルレス強化学習法の両方で, 精度と頑健さの点で優れていた。
- 参考スコア(独自算出の注目度): 1.474723404975345
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper evaluates and compares the performance of model-free and
model-based reinforcement learning for the attitude control of fixed-wing
unmanned aerial vehicles using PID as a reference point. The comparison focuses
on their ability to handle varying flight dynamics and wind disturbances in a
simulated environment. Our results show that the Temporal Difference Model
Predictive Control agent outperforms both the PID controller and other
model-free reinforcement learning methods in terms of tracking accuracy and
robustness over different reference difficulties, particularly in nonlinear
flight regimes. Furthermore, we introduce actuation fluctuation as a key metric
to assess energy efficiency and actuator wear, and we test two different
approaches from the literature: action variation penalty and conditioning for
action policy smoothness. We also evaluate all control methods when subject to
stochastic turbulence and gusts separately, so as to measure their effects on
tracking performance, observe their limitations and outline their implications
on the Markov decision process formalism.
- Abstract(参考訳): 本稿では、PIDを基準点として、固定翼無人航空機の姿勢制御のためのモデルフリーおよびモデルベース強化学習の性能を評価し、比較する。
この比較は、シミュレートされた環境で様々な飛行力学と風の乱れを扱う能力に焦点を当てている。
本研究の結果から,PIDコントローラと他のモデルフリー強化学習手法の両方において,特に非線形飛行系において,異なる参照困難に対する精度と頑健さの追跡において,時間差モデル予測制御が優れていたことが示唆された。
さらに、エネルギー効率とアクチュエータ摩耗を評価するための重要な指標としてアクティベーション変動を導入し、アクション変動ペナルティとアクションポリシースムーズネスの条件付けの2つの異なるアプローチを検証した。
また,確率的乱流とガストの影響を別々に評価し,その影響を追及し,その限界を観察し,マルコフ決定過程の定式化にその影響を概説する。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - A Reinforcement Learning Approach for Robust Supervisory Control of UAVs
Under Disturbances [1.8799681615947088]
無人航空機(UAV)の監視強化学習制御手法を提案する。
我々は,既存の組込み制御と交差する監視制御アーキテクチャを定式化し,悪風の形での環境障害に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-05-21T19:00:06Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Inferring Traffic Models in Terminal Airspace from Flight Tracks and
Procedures [52.25258289718559]
本稿では,レーダ監視データから収集したプロシージャデータとフライトトラックから可変性を学習可能な確率モデルを提案する。
任意の航空機数を含む交通量を生成するために,ペアワイズモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2023-03-17T13:58:06Z) - Incorporating Recurrent Reinforcement Learning into Model Predictive
Control for Adaptive Control in Autonomous Driving [11.67417895998434]
モデル予測制御(MPC)は、強力な制御技術として自律運転タスクに大きな注目を集めている。
本稿では,この問題を部分的に観測されたマルコフ決定過程(POMDP)として再検討する。
次に、最適かつ適応的な制御のために、リカレント強化学習(RRL)を通して、動的モデルのパラメータを継続的に適応させるリカレントポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-30T22:11:07Z) - Interpretable Stochastic Model Predictive Control using Distributional
Reinforced Estimation for Quadrotor Tracking Systems [0.8411385346896411]
本研究では,動的・複雑環境下での自律的四角形ナビゲーションのためのトラジェクトリトラッカーを提案する。
提案フレームワークは,未知の空力効果に対する分散強化学習推定器をモデル予測制御器に統合する。
我々は,未知かつ多様な空気力を用いて,累積追従誤差を少なくとも66%改善するシステムを実証した。
論文 参考訳(メタデータ) (2022-05-14T23:27:38Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Reinforcement Learning with Formal Performance Metrics for Quadcopter
Attitude Control under Non-nominal Contexts [2.198760145670348]
本研究では,車両の挙動を定量的に評価し,制御器の性能を計測する信号時間論理の頑健な形式を開発する。
得られた制御器のロバスト性について論じる。これは1つのローターの動力の部分的損失と風洞の巻き上げと、強化学習による実用的な制御器設計の結論の導出による仕上げである。
論文 参考訳(メタデータ) (2021-07-27T16:58:19Z) - The Impact of Data on the Stability of Learning-Based Control- Extended
Version [63.97366815968177]
本稿では,Lyapunovをベースとした,認証制御性能に対するデータの影響の定量化手法を提案する。
ガウス過程を通じて未知系の力学をモデル化することにより、モデルの不確実性と安定性条件の満足度の間の相互関係を決定できる。
論文 参考訳(メタデータ) (2020-11-20T19:10:01Z) - Comparison of Model Predictive and Reinforcement Learning Methods for
Fault Tolerant Control [2.524528674141466]
階層的強化学習に基づく離散時間系に対する2つの適応型耐故障制御方式を提案する。
実験により、強化学習に基づく制御器は、故障下のモデル予測制御器、部分的に観測可能なシステムモデル、様々なセンサノイズレベルよりも堅牢に動作することが示されている。
論文 参考訳(メタデータ) (2020-08-10T20:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。