論文の概要: Inclined Quadrotor Landing using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.09043v1
- Date: Tue, 16 Mar 2021 13:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 18:03:39.863150
- Title: Inclined Quadrotor Landing using Deep Reinforcement Learning
- Title(参考訳): 深部強化学習を用いた傾斜クアドロレータランディング
- Authors: Jacob E. Kooi and Robert Babu\v{s}ka
- Abstract要約: 傾斜面に対する自律着陸制御装置の設計のための深層強化学習手法を提案する。
堅牢なポリシーは、標準的なラップトップで90分以内でシミュレーションでトレーニングすることができる。
単一のポリシー評価は約2.5 msかかるため、将来のクアッドローターへの組み込み実装に適しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Landing a quadrotor on an inclined surface is a challenging manoeuvre. The
final state of any inclined landing trajectory is not an equilibrium, which
precludes the use of most conventional control methods. We propose a deep
reinforcement learning approach to design an autonomous landing controller for
inclined surfaces. Using the proximal policy optimization (PPO) algorithm with
sparse rewards and a tailored curriculum learning approach, a robust policy can
be trained in simulation in less than 90 minutes on a standard laptop. The
policy then directly runs on a real Crazyflie 2.1 quadrotor and successfully
performs real inclined landings in a flying arena. A single policy evaluation
takes approximately 2.5 ms, which makes it suitable for a future embedded
implementation on the quadrotor.
- Abstract(参考訳): クワッドローターを傾斜面に着陸させるのは難しい作業だ。
傾斜した着陸軌道の最終状態は平衡状態ではなく、従来の制御方法の使用を妨げている。
傾斜面に対する自律着陸制御装置の設計のための深層強化学習手法を提案する。
ppo(proximal policy optimization)アルゴリズムを使って、スリムな報酬とカリキュラム学習のアプローチを用いて、標準ラップトップ上で90分以内のシミュレーションで堅牢なポリシーを訓練することができる。
このポリシーは、本物のcrazyflie 2.1クワッドローター上で直接動作し、フライングアリーナで実際の傾斜着陸に成功した。
1つのポリシー評価は約2.5msであり、将来のクオータへの組込み実装に適している。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - WROOM: An Autonomous Driving Approach for Off-Road Navigation [17.74237088460657]
オフロード環境における自動運転車のためのエンドツーエンド強化学習システム(RL)を設計する。
ルールベースのコントローラを模倣してエージェントを温め、PPO(Proximal Policy Optimization)を利用してポリシーを改善する。
オフロード走行シナリオを再現する新しいシミュレーション環境を提案し,本提案手法を実車に展開する。
論文 参考訳(メタデータ) (2024-04-12T23:55:59Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Inverted Landing in a Small Aerial Robot via Deep Reinforcement Learning
for Triggering and Control of Rotational Maneuvers [11.29285364660789]
高速で頑健な逆着陸は、特に機内でのセンシングと計算に完全に依存しながらも、空中ロボットにとって難しい偉業である。
これまでの研究では、一連の視覚的手がかりとキネマティックな動作の間に直接的な因果関係が特定され、小型の空中ロボットでこの困難なエアロバティックな操作を確実に実行することができた。
本研究では、まずDeep Reinforcement Learningと物理シミュレーションを用いて、頑健な逆着陸のための汎用的最適制御ポリシーを得る。
論文 参考訳(メタデータ) (2022-09-22T14:38:10Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Time-Optimal Planning for Quadrotor Waypoint Flight [50.016821506107455]
立方体の作動限界における時間-最適軌道の計画は未解決の問題である。
四重項のアクチュエータポテンシャルをフル活用する解を提案する。
我々は、世界最大規模のモーションキャプチャーシステムにおいて、実世界の飛行における我々の方法を検証する。
論文 参考訳(メタデータ) (2021-08-10T09:26:43Z) - Learning Linear Policies for Robust Bipedal Locomotion on Terrains with
Varying Slopes [5.737287537823072]
我々はこのポリシーを,2つのロボットプラットフォームであるrabbitとdigitで,モデルフリーで勾配フリーな学習アルゴリズムであるars( augmented random search)を通じて学習する。
後方歩行、ステップインプレース、最大120 Nの外部プッシュからのリカバリなどの追加の動作を示します。
その結果,斜面の異なる地形で二足歩行を行う場合のロバストかつ高速なフィードバック制御法が得られた。
論文 参考訳(メタデータ) (2021-04-04T18:50:58Z) - Robust Quadrupedal Locomotion on Sloped Terrains: A Linear Policy
Approach [3.752600874088677]
私たちは、四足歩行ロボットStochに2ドル(約2万2000円)のリニアポリシーを使っています。
特に、エンドフット軌道のパラメータは、胴体方向と地形傾斜を入力として取る線形フィードバックポリシーによって形成される。
結果として生じる歩行は、地形の斜面の変動や外部のプッシュに対して堅牢である。
論文 参考訳(メタデータ) (2020-10-30T16:02:08Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文 参考訳(メタデータ) (2020-06-16T22:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。