Fugu-MT 論文翻訳(概要): Reinforcement Twinning for Hybrid Control of Flapping-Wing Drones

論文の概要: Reinforcement Twinning for Hybrid Control of Flapping-Wing Drones

arxiv url: http://arxiv.org/abs/2505.18201v1
Date: Wed, 21 May 2025 12:27:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.202232
Title: Reinforcement Twinning for Hybrid Control of Flapping-Wing Drones
Title（参考訳）: 羽ばたき翼ドローンのハイブリッド制御のための強化ツインニング
Authors: Romain Poletti, Lorenzo Schena, Lilla Koloszar, Joris Degroote, Miguel Alfonso Mendez,
Abstract要約: 本稿では,提案手法に基づくハイブリッドモデルフリー/モデルベースによる飛行制御手法を提案する。このアルゴリズムは、羽ばたき翼ドローンの縦方向のダイナミクスを制御するために評価される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Controlling the flight of flapping-wing drones requires versatile controllers that handle their time-varying, nonlinear, and underactuated dynamics from incomplete and noisy sensor data. Model-based methods struggle with accurate modeling, while model-free approaches falter in efficiently navigating very high-dimensional and nonlinear control objective landscapes. This article presents a novel hybrid model-free/model-based approach to flight control based on the recently proposed reinforcement twinning algorithm. The model-based (MB) approach relies on an adjoint formulation using an adaptive digital twin, continuously identified from live trajectories, while the model-free (MF) approach relies on reinforcement learning. The two agents collaborate through transfer learning, imitation learning, and experience sharing using the real environment, the digital twin and a referee. The latter selects the best agent to interact with the real environment based on performance within the digital twin and a real-to-virtual environment consistency ratio. The algorithm is evaluated for controlling the longitudinal dynamics of a flapping-wing drone, with the environment simulated as a nonlinear, time-varying dynamical system under the influence of quasi-steady aerodynamic forces. The hybrid control learning approach is tested with three types of initialization of the adaptive model: (1) offline identification using previously available data, (2) random initialization with full online identification, and (3) offline pre-training with an estimation bias, followed by online adaptation. In all three scenarios, the proposed hybrid learning approach demonstrates superior performance compared to purely model-free and model-based methods.
Abstract（参考訳）: 羽ばたきドローンの飛行を制御するには、不完全でノイズの多いセンサーデータから、時間変化、非線形、不活性化のダイナミクスを扱う多用途コントローラが必要である。モデルベース手法は正確なモデリングに苦慮する一方、モデルフリーアプローチは、非常に高次元で非線形な制御対象のランドスケープを効率的にナビゲートする。本稿では,最近提案された強化ツインニングアルゴリズムに基づく,新しいハイブリッドモデルフリー/モデルベースによる飛行制御手法を提案する。モデルベース(MB)アプローチは、適応型デジタルツインを用いた随伴型定式化に依存しており、モデルフリー(MF)アプローチは強化学習に依存している。 2人のエージェントは、トランスファーラーニング、模倣学習、実際の環境、デジタルツイン、レフェリーを使った経験共有を通じて協力する。後者は、デジタルツイン内の性能と現実と仮想環境の整合性比に基づいて、実環境と対話する最良のエージェントを選択する。このアルゴリズムは, 準定常空気力の影響を受けながら, 空気力学系としてシミュレーションされた環境を用いて, 羽ばたきドローンの縦方向のダイナミックスを制御するために評価される。ハイブリッド制御学習手法は,(1)事前利用可能なデータを用いたオフライン識別,(2)完全オンライン識別によるランダム初期化,(3)推定バイアスによるオフライン事前学習,そしてオンライン適応の3種類の適応モデルの初期化で試験される。これら3つのシナリオにおいて、提案したハイブリッド学習手法は、純粋にモデルフリーな手法やモデルベース手法よりも優れた性能を示す。

関連論文リスト

Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。 i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-09T06:26:02Z)
Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文参考訳（メタデータ） (2025-03-03T04:51:40Z)
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文参考訳（メタデータ） (2024-01-06T21:04:31Z)
Physics-informed reinforcement learning via probabilistic co-adjustment functions [3.6787556334630334]
両手法の利点を組み合わせた新しい手法として,コクリグ調整 (CKA) とリッジ回帰調整 (RRA) を導入する。本手法は,GPプリエントと統合した自己回帰AR1コクリグモデルに基づく。
論文参考訳（メタデータ） (2023-09-11T12:10:19Z)
End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-03T10:21:53Z)
Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文参考訳（メタデータ） (2022-10-23T00:45:05Z)
Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文参考訳（メタデータ） (2022-06-07T13:51:35Z)
Learning Adaptive Control for SE(3) Hamiltonian Dynamics [15.26733033527393]
本稿では, 地上, 空中, 水中などの剛体システムに対する適応的幾何制御法を開発した。我々は、状態制御軌道データから学習したニューラル常微分方程式ネットワークを用いて、系の力学のハミルトンモデルを学ぶ。第2段階では、エネルギーベースの観点から外乱補償を施した軌道追従制御器を設計する。
論文参考訳（メタデータ） (2021-09-21T05:54:28Z)
Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。 MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文参考訳（メタデータ） (2021-06-16T16:24:55Z)
Preference-Based Learning for User-Guided HZD Gait Generation on Bipedal Walking Robots [31.994815173888806]
本稿では,制御理論と機械学習を併用して,安定かつ頑健な二足歩行を実現する枠組みを提案する。その結果、このフレームワークは、シミュレーション環境に依存することなく、50回未満のイテレーションで安定で、堅牢で、効率的で、そして、自然な歩行を実現することがわかった。
論文参考訳（メタデータ） (2020-11-10T22:15:56Z)
Model-Free Voltage Regulation of Unbalanced Distribution Network Based on Surrogate Model and Deep Reinforcement Learning [9.984416150031217]
本稿では,サロゲートモデルと深部強化学習(DRL)に基づくモデルフリーアプローチを開発する。また、バランスの取れない3段階シナリオに対応するように拡張しました。
論文参考訳（メタデータ） (2020-06-24T18:49:41Z)
Logarithmic Regret Bound in Partially Observable Linear Dynamical Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。 AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文参考訳（メタデータ） (2020-03-25T06:00:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。