論文の概要: Learning to Fly in Seconds
- arxiv url: http://arxiv.org/abs/2311.13081v1
- Date: Wed, 22 Nov 2023 01:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 16:30:12.854353
- Title: Learning to Fly in Seconds
- Title(参考訳): 数秒で飛ぶことを学ぶ
- Authors: Jonas Eschmann, Dario Albani, Giuseppe Loianno
- Abstract要約: カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
- 参考スコア(独自算出の注目度): 8.159171440455824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based methods, particularly Reinforcement Learning (RL), hold great
promise for streamlining deployment, enhancing performance, and achieving
generalization in the control of autonomous multirotor aerial vehicles. Deep RL
has been able to control complex systems with impressive fidelity and agility
in simulation but the simulation-to-reality transfer often brings a
hard-to-bridge reality gap. Moreover, RL is commonly plagued by prohibitively
long training times. In this work, we propose a novel asymmetric
actor-critic-based architecture coupled with a highly reliable RL-based
training paradigm for end-to-end quadrotor control. We show how curriculum
learning and a highly optimized simulator enhance sample complexity and lead to
fast training times. To precisely discuss the challenges related to
low-level/end-to-end multirotor control, we also introduce a taxonomy that
classifies the existing levels of control abstractions as well as
non-linearities and domain parameters. Our framework enables
Simulation-to-Reality (Sim2Real) transfer for direct RPM control after only 18
seconds of training on a consumer-grade laptop as well as its deployment on
microcontrollers to control a multirotor under real-time guarantees. Finally,
our solution exhibits competitive performance in trajectory tracking, as
demonstrated through various experimental comparisons with existing
state-of-the-art control solutions using a real Crazyflie nano quadrotor. We
open source the code including a very fast multirotor dynamics simulator that
can simulate about 5 months of flight per second on a laptop GPU. The fast
training times and deployment to a cheap, off-the-shelf quadrotor lower the
barriers to entry and help democratize the research and development of these
systems.
- Abstract(参考訳): 学習に基づく手法、特に強化学習(RL)は、展開の合理化、性能の向上、自律型マルチロータ航空機の制御における一般化の実現を大いに約束する。
deep rlは、シミュレーションにおいて、印象的な忠実性と俊敏性で複雑なシステムを制御することができるが、シミュレーションから現実への移動は、しばしば橋渡しの難しい現実のギャップをもたらす。
さらに、RLは違法に長い訓練時間で悩まされることが多い。
本研究では,非対称なアクター・クリティカル・ベースアーキテクチャと,エンドツーエンドのクオータ制御のための信頼性の高いRLベースのトレーニングパラダイムを提案する。
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを高め,学習時間を短縮することを示す。
低レベル/エンドツーエンドのマルチロータ制御に関わる課題を正確に議論するために、既存の制御抽象化のレベルと非線形性、ドメインパラメータを分類する分類法も導入する。
我々のフレームワークは、コンシューマ級ラップトップでの18秒のトレーニング後に直接RPM制御のためのシミュレーション・トゥ・リアル(Sim2Real)転送を可能にするとともに、マイクロコントローラへのデプロイにより、リアルタイム保証下でマルチロータを制御する。
最後に,本手法は,実際のクラジフリーナノ四極子を用いた既存の最先端制御ソリューションと比較して,トラジェクトリトラッキングにおける競合性能を示す。
我々は、非常に高速なマルチロータダイナミックスシミュレータを含むコードをオープンソース化し、ラップトップGPU上で毎秒約5ヶ月の飛行をシミュレートできる。
高速なトレーニング時間と、安価なオフザシェルフのクアロータへの展開により、導入障壁を低くし、これらのシステムの研究と開発を民主化するのに役立ちます。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Resilient Control of Networked Microgrids using Vertical Federated
Reinforcement Learning: Designs and Real-Time Test-Bed Validations [5.394255369988441]
本稿では、(a)モデル複雑度、(b)ISRデバイスの未知の動的挙動、(b)マルチパーティ所有のネットワークグリッドにおけるデータ共有に関するプライバシー問題、(2)シミュレーションからハードウェア・イン・ザ・ループテストベッドへの学習制御の移行について、新しいフェデレーション強化学習(Fed-RL)アプローチを提案する。
実験により,シミュレータ学習したRLコントローラは実時間テストベッドのセットアップによる説得力のある結果が得られ,sim-to-realギャップの最小化が検証された。
論文 参考訳(メタデータ) (2023-11-21T00:59:27Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Skip Training for Multi-Agent Reinforcement Learning Controller for
Industrial Wave Energy Converters [94.84709449845352]
近年のウェーブ・エナジー・コンバータ(WEC)は、発電を最大化するために複数の脚と発電機を備えている。
従来のコントローラは複雑な波のパターンを捕捉する制限を示しており、コントローラはエネルギー捕獲を効率的に最大化する必要がある。
本稿では,従来のスプリングダンパよりも優れたマルチエージェント強化学習コントローラ(MARL)を提案する。
論文 参考訳(メタデータ) (2022-09-13T00:20:31Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning to Control Direct Current Motor for Steering in Real Time via
Reinforcement Learning [2.3554584457413483]
実機と模擬環境の両方においてゴルフカートの位置制御にNFQアルゴリズムを用いる。
シミュレーションでは4分、実際のハードウェアでは11分で制御を成功させました。
論文 参考訳(メタデータ) (2021-07-31T03:24:36Z) - Learning to Fly -- a Gym Environment with PyBullet Physics for
Reinforcement Learning of Multi-agent Quadcopter Control [0.0]
本稿では,Bullet物理エンジンに基づく複数クワッドコプターのオープンソース環境を提案する。
マルチエージェントおよびビジョンベースの強化学習インターフェース、および現実的な衝突と空力効果のサポートは、私たちの知識の最高に、その種の最初のものにします。
論文 参考訳(メタデータ) (2021-03-03T02:47:59Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。