論文の概要: Learning Agile Quadrotor Flight in the Real World
- arxiv url: http://arxiv.org/abs/2602.10111v1
- Date: Tue, 10 Feb 2026 18:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.343551
- Title: Learning Agile Quadrotor Flight in the Real World
- Title(参考訳): 現実世界でアジャイルクアドロター飛行を学ぶ
- Authors: Yunfan Ren, Zhiyuan Zhu, Jiaxu Xing, Davide Scaramuzza,
- Abstract要約: 学習ベースのコントローラは、アジャイルの4倍体飛行で素晴らしいパフォーマンスを達成したが、一般的にはシミュレーションの大規模なトレーニングに依存している。
システム識別やオフラインのSim2Real転送を必要としない自己適応型フレームワークを提案する。
本稿では、適応時間スケーリング(ATS)を導入し、プラットフォーム物理限界を積極的に探求し、オンライン残差学習を用いて単純な名目モデルを強化する。
- 参考スコア(独自算出の注目度): 24.272916786375365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based controllers have achieved impressive performance in agile quadrotor flight but typically rely on massive training in simulation, necessitating accurate system identification for effective Sim2Real transfer. However, even with precise modeling, fixed policies remain susceptible to out-of-distribution scenarios, ranging from external aerodynamic disturbances to internal hardware degradation. To ensure safety under these evolving uncertainties, such controllers are forced to operate with conservative safety margins, inherently constraining their agility outside of controlled settings. While online adaptation offers a potential remedy, safely exploring physical limits remains a critical bottleneck due to data scarcity and safety risks. To bridge this gap, we propose a self-adaptive framework that eliminates the need for precise system identification or offline Sim2Real transfer. We introduce Adaptive Temporal Scaling (ATS) to actively explore platform physical limits, and employ online residual learning to augment a simple nominal model. {Based on the learned hybrid model, we further propose Real-world Anchored Short-horizon Backpropagation Through Time (RASH-BPTT) to achieve efficient and robust in-flight policy updates. Extensive experiments demonstrate that our quadrotor reliably executes agile maneuvers near actuator saturation limits. The system evolves a conservative base policy with a peak speed of 1.9 m/s to 7.3 m/s within approximately 100 seconds of flight time. These findings underscore that real-world adaptation serves not merely to compensate for modeling errors, but as a practical mechanism for sustained performance improvement in aggressive flight regimes.
- Abstract(参考訳): 学習ベースのコントローラは、アジャイルの四極子飛行で素晴らしいパフォーマンスを達成したが、通常はシミュレーションの大規模なトレーニングに頼り、効果的なSim2Real転送のために正確なシステム識別を必要としている。
しかし、正確なモデリングであっても、外部の空力障害からハードウェア内部の劣化に至るまで、固定されたポリシーは配布外シナリオに影響を受けやすいままである。
こうした不確実性の下での安全性を確保するため、このようなコントローラは保守的な安全マージンで運用せざるを得ない。
オンライン適応は潜在的な対策を提供するが、データ不足と安全性のリスクのために、安全な物理的制限を探索することは重要なボトルネックである。
このギャップを埋めるため,システム識別やオフラインのSim2Real転送の必要性を解消する自己適応型フレームワークを提案する。
本稿では、適応時間スケーリング(ATS)を導入し、プラットフォーム物理限界を積極的に探求し、オンライン残差学習を用いて単純な名目モデルを強化する。
学習したハイブリッドモデルに基づいて,より効率的かつ堅牢な飛行中のポリシー更新を実現するために,リアルタイム短水平バックプロパゲーション・アット・タイム(RASH-BPTT)を提案する。
大規模な実験により、我々の四重項器はアクチュエータ飽和限界付近で確実にアジャイルの操作を実行することが実証された。
このシステムは、最高速度が1.9m/sから7.3m/sまで約100秒以内に保守的な基本方針を進化させる。
これらの知見は、現実の適応は単にモデリングエラーを補うだけでなく、攻撃的な飛行体制における持続的な性能改善の実践的なメカニズムとして機能することを示している。
関連論文リスト
- SLowRL: Safe Low-Rank Adaptation Reinforcement Learning for Locomotion [16.763723249971793]
SLowRLはローランド適応(LoRA)とリカバリポリシによるトレーニング時間安全対策を組み合わせたフレームワークである。
実験結果から,本手法は微調整時間とほぼゼロの安全違反を4,6.5%削減できることがわかった。
論文 参考訳(メタデータ) (2026-03-17T19:26:48Z) - CycleRL: Sim-to-Real Deep Reinforcement Learning for Robust Autonomous Bicycle Control [10.350603824555408]
CycleRLは、堅牢な自律自転車制御のための初めてのシミュレート・トゥ・リアルな深層強化学習フレームワークである。
シミュレーションでは、CycleRLは99.90%のバランス成功率、1.15の低ステアリング追尾誤差、0.18m/sの速度追尾誤差など、かなりの性能を達成する。
論文 参考訳(メタデータ) (2026-03-16T09:17:51Z) - Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation [0.13499500088995461]
マルチローターは様々な分野のロボティクス応用において重要な役割を果たしている。
従来のアプローチでは、マルチロータモデルの事前知識や、新しい構成への適応に苦労する必要がある。
我々はトランスフォーマーベースのオンライン適応モジュールと統合された新しいハイブリッドRLベースのFTCフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T04:50:29Z) - A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。
本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文 参考訳(メタデータ) (2025-04-21T14:25:23Z) - Learning Speed Adaptation for Flight in Clutter [3.8876619768726157]
動物は自分の運動の速度を自分の能力や観察する環境に適応させることを学ぶ。
モバイルロボットはまた、タスクを効率的に達成するための攻撃性と安全性をトレードオフする能力を示す必要がある。
この研究は、未知の、部分的に観測可能な乱雑な環境において、速度適応の能力を持つ飛行車両を養うことを目的としている。
論文 参考訳(メタデータ) (2024-03-07T15:30:54Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - Sim-Anchored Learning for On-the-Fly Adaptation [45.123633153460034]
実世界のデータを持つ微調整シミュレーション訓練されたRLエージェントは、制限されたデータ分布や歪んだデータ分布のために重要な振る舞いを劣化させることが多い。
シミュレーションと現実の両方において政策目標を満たさなければならない多目的最適化問題として、フレーミングライブ適応を提案する。
論文 参考訳(メタデータ) (2023-01-17T16:16:53Z) - Model-Based Meta-Reinforcement Learning for Flight with Suspended
Payloads [69.21503033239985]
吊り下げられたペイロードの輸送は、自律的な航空車両にとって困難である。
接続後飛行データから数秒以内に変化力学のモデルを学習するメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-04-23T17:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。