Fugu-MT 論文翻訳(概要): Inclined Quadrotor Landing using Deep Reinforcement Learning

論文の概要: Inclined Quadrotor Landing using Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2103.09043v1
Date: Tue, 16 Mar 2021 13:22:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-17 18:03:39.863150
Title: Inclined Quadrotor Landing using Deep Reinforcement Learning
Title（参考訳）: 深部強化学習を用いた傾斜クアドロレータランディング
Authors: Jacob E. Kooi and Robert Babu\v{s}ka
Abstract要約: 傾斜面に対する自律着陸制御装置の設計のための深層強化学習手法を提案する。堅牢なポリシーは、標準的なラップトップで90分以内でシミュレーションでトレーニングすることができる。単一のポリシー評価は約2.5 msかかるため、将来のクアッドローターへの組み込み実装に適しています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Landing a quadrotor on an inclined surface is a challenging manoeuvre. The final state of any inclined landing trajectory is not an equilibrium, which precludes the use of most conventional control methods. We propose a deep reinforcement learning approach to design an autonomous landing controller for inclined surfaces. Using the proximal policy optimization (PPO) algorithm with sparse rewards and a tailored curriculum learning approach, a robust policy can be trained in simulation in less than 90 minutes on a standard laptop. The policy then directly runs on a real Crazyflie 2.1 quadrotor and successfully performs real inclined landings in a flying arena. A single policy evaluation takes approximately 2.5 ms, which makes it suitable for a future embedded implementation on the quadrotor.
Abstract（参考訳）: クワッドローターを傾斜面に着陸させるのは難しい作業だ。傾斜した着陸軌道の最終状態は平衡状態ではなく、従来の制御方法の使用を妨げている。傾斜面に対する自律着陸制御装置の設計のための深層強化学習手法を提案する。 ppo(proximal policy optimization)アルゴリズムを使って、スリムな報酬とカリキュラム学習のアプローチを用いて、標準ラップトップ上で90分以内のシミュレーションで堅牢なポリシーを訓練することができる。このポリシーは、本物のcrazyflie 2.1クワッドローター上で直接動作し、フライングアリーナで実際の傾斜着陸に成功した。 1つのポリシー評価は約2.5msであり、将来のクオータへの組込み実装に適している。

関連論文リスト

A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文参考訳（メタデータ） (2025-04-21T14:25:23Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
WROOM: An Autonomous Driving Approach for Off-Road Navigation [17.74237088460657]
オフロード環境における自動運転車のためのエンドツーエンド強化学習システム(RL)を設計する。ルールベースのコントローラを模倣してエージェントを温め、PPO(Proximal Policy Optimization)を利用してポリシーを改善する。オフロード走行シナリオを再現する新しいシミュレーション環境を提案し,本提案手法を実車に展開する。
論文参考訳（メタデータ） (2024-04-12T23:55:59Z)
A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文参考訳（メタデータ） (2024-01-08T17:55:02Z)
Inverted Landing in a Small Aerial Robot via Deep Reinforcement Learning for Triggering and Control of Rotational Maneuvers [11.29285364660789]
高速で頑健な逆着陸は、特に機内でのセンシングと計算に完全に依存しながらも、空中ロボットにとって難しい偉業である。これまでの研究では、一連の視覚的手がかりとキネマティックな動作の間に直接的な因果関係が特定され、小型の空中ロボットでこの困難なエアロバティックな操作を確実に実行することができた。本研究では、まずDeep Reinforcement Learningと物理シミュレーションを用いて、頑健な逆着陸のための汎用的最適制御ポリシーを得る。
論文参考訳（メタデータ） (2022-09-22T14:38:10Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
Time-Optimal Planning for Quadrotor Waypoint Flight [50.016821506107455]
立方体の作動限界における時間-最適軌道の計画は未解決の問題である。四重項のアクチュエータポテンシャルをフル活用する解を提案する。我々は、世界最大規模のモーションキャプチャーシステムにおいて、実世界の飛行における我々の方法を検証する。
論文参考訳（メタデータ） (2021-08-10T09:26:43Z)
Learning Linear Policies for Robust Bipedal Locomotion on Terrains with Varying Slopes [5.737287537823072]
我々はこのポリシーを,2つのロボットプラットフォームであるrabbitとdigitで,モデルフリーで勾配フリーな学習アルゴリズムであるars( augmented random search)を通じて学習する。後方歩行、ステップインプレース、最大120 Nの外部プッシュからのリカバリなどの追加の動作を示します。その結果,斜面の異なる地形で二足歩行を行う場合のロバストかつ高速なフィードバック制御法が得られた。
論文参考訳（メタデータ） (2021-04-04T18:50:58Z)
Robust Quadrupedal Locomotion on Sloped Terrains: A Linear Policy Approach [3.752600874088677]
私たちは、四足歩行ロボットStochに2ドル(約2万2000円)のリニアポリシーを使っています。特に、エンドフット軌道のパラメータは、胴体方向と地形傾斜を入力として取る線形フィードバックポリシーによって形成される。結果として生じる歩行は、地形の斜面の変動や外部のプッシュに対して堅牢である。
論文参考訳（メタデータ） (2020-10-30T16:02:08Z)
Reinforcement Learning for Low-Thrust Trajectory Design of Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。最先端アルゴリズムのオープンソース実装が採用されている。その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文参考訳（メタデータ） (2020-08-19T15:22:15Z)
COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文参考訳（メタデータ） (2020-06-16T22:05:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。