論文の概要: Inclined Quadrotor Landing using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.09043v1
- Date: Tue, 16 Mar 2021 13:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 18:03:39.863150
- Title: Inclined Quadrotor Landing using Deep Reinforcement Learning
- Title(参考訳): 深部強化学習を用いた傾斜クアドロレータランディング
- Authors: Jacob E. Kooi and Robert Babu\v{s}ka
- Abstract要約: 傾斜面に対する自律着陸制御装置の設計のための深層強化学習手法を提案する。
堅牢なポリシーは、標準的なラップトップで90分以内でシミュレーションでトレーニングすることができる。
単一のポリシー評価は約2.5 msかかるため、将来のクアッドローターへの組み込み実装に適しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Landing a quadrotor on an inclined surface is a challenging manoeuvre. The
final state of any inclined landing trajectory is not an equilibrium, which
precludes the use of most conventional control methods. We propose a deep
reinforcement learning approach to design an autonomous landing controller for
inclined surfaces. Using the proximal policy optimization (PPO) algorithm with
sparse rewards and a tailored curriculum learning approach, a robust policy can
be trained in simulation in less than 90 minutes on a standard laptop. The
policy then directly runs on a real Crazyflie 2.1 quadrotor and successfully
performs real inclined landings in a flying arena. A single policy evaluation
takes approximately 2.5 ms, which makes it suitable for a future embedded
implementation on the quadrotor.
- Abstract(参考訳): クワッドローターを傾斜面に着陸させるのは難しい作業だ。
傾斜した着陸軌道の最終状態は平衡状態ではなく、従来の制御方法の使用を妨げている。
傾斜面に対する自律着陸制御装置の設計のための深層強化学習手法を提案する。
ppo(proximal policy optimization)アルゴリズムを使って、スリムな報酬とカリキュラム学習のアプローチを用いて、標準ラップトップ上で90分以内のシミュレーションで堅牢なポリシーを訓練することができる。
このポリシーは、本物のcrazyflie 2.1クワッドローター上で直接動作し、フライングアリーナで実際の傾斜着陸に成功した。
1つのポリシー評価は約2.5msであり、将来のクオータへの組込み実装に適している。
関連論文リスト
- A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for
Robotic Navigation [75.36145696421038]
Ada-NAVは、ロボットナビゲーションタスクにおける強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された新しい適応軌道長スキームである。
我々は、Ada-NAVが一定またはランダムにサンプリングされた軌道長を用いる従来の手法よりも優れているというシミュレーションと実世界のロボット実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Inverted Landing in a Small Aerial Robot via Deep Reinforcement Learning
for Triggering and Control of Rotational Maneuvers [11.29285364660789]
高速で頑健な逆着陸は、特に機内でのセンシングと計算に完全に依存しながらも、空中ロボットにとって難しい偉業である。
これまでの研究では、一連の視覚的手がかりとキネマティックな動作の間に直接的な因果関係が特定され、小型の空中ロボットでこの困難なエアロバティックな操作を確実に実行することができた。
本研究では、まずDeep Reinforcement Learningと物理シミュレーションを用いて、頑健な逆着陸のための汎用的最適制御ポリシーを得る。
論文 参考訳(メタデータ) (2022-09-22T14:38:10Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Time-Optimal Planning for Quadrotor Waypoint Flight [50.016821506107455]
立方体の作動限界における時間-最適軌道の計画は未解決の問題である。
四重項のアクチュエータポテンシャルをフル活用する解を提案する。
我々は、世界最大規模のモーションキャプチャーシステムにおいて、実世界の飛行における我々の方法を検証する。
論文 参考訳(メタデータ) (2021-08-10T09:26:43Z) - Learning Linear Policies for Robust Bipedal Locomotion on Terrains with
Varying Slopes [5.737287537823072]
我々はこのポリシーを,2つのロボットプラットフォームであるrabbitとdigitで,モデルフリーで勾配フリーな学習アルゴリズムであるars( augmented random search)を通じて学習する。
後方歩行、ステップインプレース、最大120 Nの外部プッシュからのリカバリなどの追加の動作を示します。
その結果,斜面の異なる地形で二足歩行を行う場合のロバストかつ高速なフィードバック制御法が得られた。
論文 参考訳(メタデータ) (2021-04-04T18:50:58Z) - RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and
Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。
センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。
我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文 参考訳(メタデータ) (2020-12-05T18:30:23Z) - Robust Quadrupedal Locomotion on Sloped Terrains: A Linear Policy
Approach [3.752600874088677]
私たちは、四足歩行ロボットStochに2ドル(約2万2000円)のリニアポリシーを使っています。
特に、エンドフット軌道のパラメータは、胴体方向と地形傾斜を入力として取る線形フィードバックポリシーによって形成される。
結果として生じる歩行は、地形の斜面の変動や外部のプッシュに対して堅牢である。
論文 参考訳(メタデータ) (2020-10-30T16:02:08Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文 参考訳(メタデータ) (2020-06-16T22:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。