論文の概要: Developmental Reinforcement Learning of Control Policy of a Quadcopter
UAV with Thrust Vectoring Rotors
- arxiv url: http://arxiv.org/abs/2007.07793v1
- Date: Wed, 15 Jul 2020 16:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:37:23.851362
- Title: Developmental Reinforcement Learning of Control Policy of a Quadcopter
UAV with Thrust Vectoring Rotors
- Title(参考訳): 推力ベクトルロータを有するクワッドコプターuavの制御方針の発達的強化学習
- Authors: Aditya M. Deshpande and Rumit Kumar and Ali A. Minai and Manish Kumar
- Abstract要約: 推力ベクター機能を有するクアッドコプターのための新規な強化学習型制御器を提案する。
このロボットの制御方針は、学習したクワッドコプターの制御装置からポリシー伝達を用いて学習される。
学習方針の性能は、ホバリングとウェイポイントナビゲーションのタスクの物理シミュレーションにより評価される。
- 参考スコア(独自算出の注目度): 1.0057838324294686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel developmental reinforcement learning-based
controller for a quadcopter with thrust vectoring capabilities. This multirotor
UAV design has tilt-enabled rotors. It utilizes the rotor force magnitude and
direction to achieve the desired state during flight. The control policy of
this robot is learned using the policy transfer from the learned controller of
the quadcopter (comparatively simple UAV design without thrust vectoring). This
approach allows learning a control policy for systems with multiple inputs and
multiple outputs. The performance of the learned policy is evaluated by
physics-based simulations for the tasks of hovering and way-point navigation.
The flight simulations utilize a flight controller based on reinforcement
learning without any additional PID components. The results show faster
learning with the presented approach as opposed to learning the control policy
from scratch for this new UAV design created by modifications in a conventional
quadcopter, i.e., the addition of more degrees of freedom (4-actuators in
conventional quadcopter to 8-actuators in tilt-rotor quadcopter). We
demonstrate the robustness of our learned policy by showing the recovery of the
tilt-rotor platform in the simulation from various non-static initial
conditions in order to reach a desired state. The developmental policy for the
tilt-rotor UAV also showed superior fault tolerance when compared with the
policy learned from the scratch. The results show the ability of the presented
approach to bootstrap the learned behavior from a simpler system
(lower-dimensional action-space) to a more complex robot (comparatively
higher-dimensional action-space) and reach better performance faster.
- Abstract(参考訳): 本稿では,推力ベクトル機能を有するクワッドコプターのための新しい発達的強化学習ベースコントローラを提案する。
このマルチロータUAV設計は傾動可能なローターを備えている。
飛行中に所望の状態を達成するためにローターの力の大きさと方向を利用する。
このロボットの制御方針は、クワッドコプターの学習されたコントローラー(推力ベクトルのない単純なuav設計)からのポリシー転送を用いて学習される。
このアプローチにより、複数の入力と複数の出力を持つシステムの制御ポリシーを学ぶことができる。
学習方針の性能は、ホバリングとウェイポイントナビゲーションのタスクの物理シミュレーションにより評価される。
飛行シミュレーションは、追加のPIDコンポーネントを使わずに強化学習に基づく飛行制御装置を利用する。
その結果、従来のクワッドコプターの修正、すなわち、より多くの自由度(従来のクワッドコプターにおける4-アクティベーターとティルトロータークワッドコプターにおける8-アクティベーター)の追加によって作成された新しいuav設計の制御ポリシーをスクラッチから学習するよりも、提示されたアプローチでより早く学習できることが示されている。
本研究では, 様々な非定常初期条件からのシミュレーションにおいて, 傾きロータプラットフォームの回復を示すことで, 学習方針の堅牢性を実証する。
また, 傾動翼UAVの開発方針は, スクラッチから学んだ政策に比べ, 優れた耐故障性を示した。
その結果、より単純なシステム(より低次元のアクション空間)からより複雑なロボット(比較的高次元のアクション空間)へ学習行動のブートストラップを行い、より高速なパフォーマンスを実現することができることを示した。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - From Flies to Robots: Inverted Landing in Small Quadcopters with Dynamic
Perching [15.57055572401334]
逆着陸は、多くの動物のチラシの中で日常的な行動である。
我々は,任意の天井面接触条件に対する制御ポリシーを策定する。
小型クワッドコプターにおいて,強靭な逆着陸動作を達成できた。
論文 参考訳(メタデータ) (2024-02-29T21:09:08Z) - Improving Wind Resistance Performance of Cascaded PID Controlled
Quadcopters using Residual Reinforcement Learning [0.0]
風力抵抗制御は、目標位置からの逸脱を避けるために、クワッドコプターが位置を維持するために欠かせない特徴である。
クワッドコプターの耐風性制御系を構築するための残留強化学習に基づく手法を提案する。
従来のケースドPIDコントローラで制御されたクワッドコプターと比較して,制御器の位置ずれを約50%低減する。
論文 参考訳(メタデータ) (2023-08-03T09:29:19Z) - Inverted Landing in a Small Aerial Robot via Deep Reinforcement Learning
for Triggering and Control of Rotational Maneuvers [11.29285364660789]
高速で頑健な逆着陸は、特に機内でのセンシングと計算に完全に依存しながらも、空中ロボットにとって難しい偉業である。
これまでの研究では、一連の視覚的手がかりとキネマティックな動作の間に直接的な因果関係が特定され、小型の空中ロボットでこの困難なエアロバティックな操作を確実に実行することができた。
本研究では、まずDeep Reinforcement Learningと物理シミュレーションを用いて、頑健な逆着陸のための汎用的最適制御ポリシーを得る。
論文 参考訳(メタデータ) (2022-09-22T14:38:10Z) - Learning a Single Near-hover Position Controller for Vastly Different
Quadcopters [56.37274861303324]
本稿では,クワッドコプターのための適応型ニアホバー位置制御器を提案する。
これは、非常に異なる質量、大きさ、運動定数を持つクワッドコプターに展開することができる。
また、実行中に未知の障害に迅速に適応する。
論文 参考訳(メタデータ) (2022-09-19T17:55:05Z) - Adapting Rapid Motor Adaptation for Bipedal Robots [73.5914982741483]
移動制御の急速な適応の最近の進歩を活用し、二足歩行ロボットで作業できるように拡張する。
A-RMAはモデルフリーRLを用いて微調整することで不完全外部推定器の基本方針を適応する。
シミュレーションにおいて,A-RMAはRLベースのベースラインコントローラやモデルベースコントローラよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-30T17:59:09Z) - Neural-Fly Enables Rapid Learning for Agile Flight in Strong Winds [96.74836678572582]
本稿では,ディープラーニングを通じて事前学習した表現を組み込むことで,オンラインでの迅速な適応を可能にする学習ベースのアプローチを提案する。
Neural-Flyは、最先端の非線形かつ適応的なコントローラよりもかなり少ないトラッキングエラーで正確な飛行制御を実現する。
論文 参考訳(メタデータ) (2022-05-13T21:55:28Z) - Reinforcement Learning with Formal Performance Metrics for Quadcopter
Attitude Control under Non-nominal Contexts [2.198760145670348]
本研究では,車両の挙動を定量的に評価し,制御器の性能を計測する信号時間論理の頑健な形式を開発する。
得られた制御器のロバスト性について論じる。これは1つのローターの動力の部分的損失と風洞の巻き上げと、強化学習による実用的な制御器設計の結論の導出による仕上げである。
論文 参考訳(メタデータ) (2021-07-27T16:58:19Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。