論文の概要: Reinforcement Twinning for Hybrid Control of Flapping-Wing Drones
- arxiv url: http://arxiv.org/abs/2505.18201v1
- Date: Wed, 21 May 2025 12:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.202232
- Title: Reinforcement Twinning for Hybrid Control of Flapping-Wing Drones
- Title(参考訳): 羽ばたき翼ドローンのハイブリッド制御のための強化ツインニング
- Authors: Romain Poletti, Lorenzo Schena, Lilla Koloszar, Joris Degroote, Miguel Alfonso Mendez,
- Abstract要約: 本稿では,提案手法に基づくハイブリッドモデルフリー/モデルベースによる飛行制御手法を提案する。
このアルゴリズムは、羽ばたき翼ドローンの縦方向のダイナミクスを制御するために評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling the flight of flapping-wing drones requires versatile controllers that handle their time-varying, nonlinear, and underactuated dynamics from incomplete and noisy sensor data. Model-based methods struggle with accurate modeling, while model-free approaches falter in efficiently navigating very high-dimensional and nonlinear control objective landscapes. This article presents a novel hybrid model-free/model-based approach to flight control based on the recently proposed reinforcement twinning algorithm. The model-based (MB) approach relies on an adjoint formulation using an adaptive digital twin, continuously identified from live trajectories, while the model-free (MF) approach relies on reinforcement learning. The two agents collaborate through transfer learning, imitation learning, and experience sharing using the real environment, the digital twin and a referee. The latter selects the best agent to interact with the real environment based on performance within the digital twin and a real-to-virtual environment consistency ratio. The algorithm is evaluated for controlling the longitudinal dynamics of a flapping-wing drone, with the environment simulated as a nonlinear, time-varying dynamical system under the influence of quasi-steady aerodynamic forces. The hybrid control learning approach is tested with three types of initialization of the adaptive model: (1) offline identification using previously available data, (2) random initialization with full online identification, and (3) offline pre-training with an estimation bias, followed by online adaptation. In all three scenarios, the proposed hybrid learning approach demonstrates superior performance compared to purely model-free and model-based methods.
- Abstract(参考訳): 羽ばたきドローンの飛行を制御するには、不完全でノイズの多いセンサーデータから、時間変化、非線形、不活性化のダイナミクスを扱う多用途コントローラが必要である。
モデルベース手法は正確なモデリングに苦慮する一方、モデルフリーアプローチは、非常に高次元で非線形な制御対象のランドスケープを効率的にナビゲートする。
本稿では,最近提案された強化ツインニングアルゴリズムに基づく,新しいハイブリッドモデルフリー/モデルベースによる飛行制御手法を提案する。
モデルベース(MB)アプローチは、適応型デジタルツインを用いた随伴型定式化に依存しており、モデルフリー(MF)アプローチは強化学習に依存している。
2人のエージェントは、トランスファーラーニング、模倣学習、実際の環境、デジタルツイン、レフェリーを使った経験共有を通じて協力する。
後者は、デジタルツイン内の性能と現実と仮想環境の整合性比に基づいて、実環境と対話する最良のエージェントを選択する。
このアルゴリズムは, 準定常空気力の影響を受けながら, 空気力学系としてシミュレーションされた環境を用いて, 羽ばたきドローンの縦方向のダイナミックスを制御するために評価される。
ハイブリッド制御学習手法は,(1)事前利用可能なデータを用いたオフライン識別,(2)完全オンライン識別によるランダム初期化,(3)推定バイアスによるオフライン事前学習,そしてオンライン適応の3種類の適応モデルの初期化で試験される。
これら3つのシナリオにおいて、提案したハイブリッド学習手法は、純粋にモデルフリーな手法やモデルベース手法よりも優れた性能を示す。
関連論文リスト
- End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Preference-Based Learning for User-Guided HZD Gait Generation on Bipedal
Walking Robots [31.994815173888806]
本稿では,制御理論と機械学習を併用して,安定かつ頑健な二足歩行を実現する枠組みを提案する。
その結果、このフレームワークは、シミュレーション環境に依存することなく、50回未満のイテレーションで安定で、堅牢で、効率的で、そして、自然な歩行を実現することがわかった。
論文 参考訳(メタデータ) (2020-11-10T22:15:56Z) - Model-Free Voltage Regulation of Unbalanced Distribution Network Based
on Surrogate Model and Deep Reinforcement Learning [9.984416150031217]
本稿では,サロゲートモデルと深部強化学習(DRL)に基づくモデルフリーアプローチを開発する。
また、バランスの取れない3段階シナリオに対応するように拡張しました。
論文 参考訳(メタデータ) (2020-06-24T18:49:41Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。