論文の概要: What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study
- arxiv url: http://arxiv.org/abs/2412.11764v1
- Date: Mon, 16 Dec 2024 13:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:34.472122
- Title: What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study
- Title(参考訳): クアドロレータ制御のためのゼロショット・シン・リアルRLポリシーの学習における課題 : 総合的研究
- Authors: Jiayu Chen, Chao Yu, Yuqing Xie, Feng Gao, Yinuo Chen, Shu'ang Yu, Wenhao Tang, Shilong Ji, Mo Mu, Yi Wu, Huazhong Yang, Yu Wang,
- Abstract要約: 実世界の四角形においてゼロショット展開が可能なロバストなRLベースの制御ポリシーを学習するための重要な要因について検討する。
これら5つのテクニックを統合した,PPOベースのトレーニングフレームワークSimpleFlightを開発した。
クレージーフリー四重極に対するSimpleFlightの有効性を検証し,軌道追従誤差を50%以上低減できることを実証した。
- 参考スコア(独自算出の注目度): 24.239835581921458
- License:
- Abstract: Executing precise and agile flight maneuvers is critical for quadrotors in various applications. Traditional quadrotor control approaches are limited by their reliance on flat trajectories or time-consuming optimization, which restricts their flexibility. Recently, RL-based policy has emerged as a promising alternative due to its ability to directly map observations to actions, reducing the need for detailed system knowledge and actuation constraints. However, a significant challenge remains in bridging the sim-to-real gap, where RL-based policies often experience instability when deployed in real world. In this paper, we investigate key factors for learning robust RL-based control policies that are capable of zero-shot deployment in real-world quadrotors. We identify five critical factors and we develop a PPO-based training framework named SimpleFlight, which integrates these five techniques. We validate the efficacy of SimpleFlight on Crazyflie quadrotor, demonstrating that it achieves more than a 50% reduction in trajectory tracking error compared to state-of-the-art RL baselines, and achieves 70% improvement over the traditional MPC. The policy derived by SimpleFlight consistently excels across both smooth polynominal trajectories and challenging infeasible zigzag trajectories on small thrust-to-weight quadrotors. In contrast, baseline methods struggle with high-speed or infeasible trajectories. To support further research and reproducibility, we integrate SimpleFlight into a GPU-based simulator Omnidrones and provide open-source access to the code and model checkpoints. We hope SimpleFlight will offer valuable insights for advancing RL-based quadrotor control. For more details, visit our project website at https://sites.google.com/view/simpleflight/.
- Abstract(参考訳): 精密かつアジャイルな飛行操作を実行することは、様々な応用において四分儀にとって重要である。
従来の四元数制御アプローチは、平らな軌道や時間を要する最適化に依存しているため、柔軟性が制限されている。
近年、RLに基づく政策は、観測をアクションに直接マッピングする能力によって、システム知識やアクティベーション制約の詳細な説明の必要性が軽減され、有望な代替手段として浮上している。
しかし、RLベースのポリシーが現実世界にデプロイされた時にしばしば不安定を経験する、sim-to-realギャップを埋めることには、大きな課題が残っている。
本稿では,実世界の四元数においてゼロショット展開が可能なロバストなRL制御ポリシーを学習するための重要な要因について検討する。
我々は5つの重要な要因を特定し、これらの5つのテクニックを統合したSimpleFlightというPPOベースのトレーニングフレームワークを開発した。
従来のMPCよりも50%以上の軌道追尾誤差を低減し,従来のRLベースラインよりも70%向上したことを示す。
SimpleFlightによって導かれるポリシーは、スムーズなポリノミナルな軌道と、小さな推力から重み付けの四辺形への挑戦可能なジグザグ軌道の両方を一貫して超えている。
対照的に、ベースライン法は高速または実用不可能な軌道に苦しむ。
さらなる研究と再現性を支援するため、SimpleFlightをGPUベースのシミュレータOmnidronesに統合し、コードとモデルチェックポイントへのオープンソースアクセスを提供する。
われわれはSimpleFlightがRLベースの四元数制御を前進させるための貴重な洞察を提供することを期待している。
詳細については、プロジェクトのWebサイトhttps://sites.google.com/view/simpleflight/を参照してください。
関連論文リスト
- FitLight: Federated Imitation Learning for Plug-and-Play Autonomous Traffic Signal Control [33.547772623142414]
強化学習(Reinforcement Learning, RL)に基づく交通信号制御(TSC)手法は, 高い学習コストや一般化性の低下といった深刻な問題を提起する。
We propose a novel Federated Imitation Learning (FIL) based framework for multi-intersection TSC, named FitLight。
FitLightはリアルタイムの模倣学習と強化学習へのシームレスな移行を可能にする。
論文 参考訳(メタデータ) (2025-02-17T15:48:46Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。