論文の概要: Using Soft Actor-Critic for Low-Level UAV Control
- arxiv url: http://arxiv.org/abs/2010.02293v1
- Date: Mon, 5 Oct 2020 19:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:05:00.242272
- Title: Using Soft Actor-Critic for Low-Level UAV Control
- Title(参考訳): ソフトアクタ-criticを用いた低レベルuav制御
- Authors: Gabriel Moraes Barros and Esther Luna Colombini
- Abstract要約: 本稿では,ソフト・アクタ・クリティカル (SAC) アルゴリズムを目標タスクにおいて低レベルに制御するためのフレームワークを提案する。
SACは堅牢なポリシーを学ぶだけでなく、目に見えないシナリオにも対処できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unmanned Aerial Vehicles (UAVs), or drones, have recently been used in
several civil application domains from organ delivery to remote locations to
wireless network coverage. These platforms, however, are naturally unstable
systems for which many different control approaches have been proposed.
Generally based on classic and modern control, these algorithms require
knowledge of the robot's dynamics. However, recently, model-free reinforcement
learning has been successfully used for controlling drones without any prior
knowledge of the robot model. In this work, we present a framework to train the
Soft Actor-Critic (SAC) algorithm to low-level control of a quadrotor in a
go-to-target task. All experiments were conducted under simulation. With the
experiments, we show that SAC can not only learn a robust policy, but it can
also cope with unseen scenarios. Videos from the simulations are available in
https://www.youtube.com/watch?v=9z8vGs0Ri5g and the code in
https://github.com/larocs/SAC_uav.
- Abstract(参考訳): 無人航空機(UAV)またはドローンは、最近、臓器提供から遠隔地、無線ネットワークのカバレッジに至るまで、いくつかの民間アプリケーションドメインで使用されている。
しかし、これらのプラットフォームは自然に不安定なシステムであり、様々な制御アプローチが提案されている。
一般に、古典的かつ近代的な制御に基づいて、これらのアルゴリズムはロボットのダイナミクスの知識を必要とする。
しかし近年,ロボットモデルに関する事前知識のないドローン制御において,モデルレス強化学習が成功している。
本研究では,ソフトアクタ・クリティカル(SAC)アルゴリズムを,目標タスク中の4乗子を低レベルに制御するフレームワークを提案する。
実験はすべてシミュレーションによって行われた。
実験の結果,SACはロバストな政策を学習できるだけでなく,目に見えないシナリオにも対処できることがわかった。
シミュレーションのビデオはhttps://www.youtube.com/watch?
v=9z8vGs0Ri5g と https://github.com/larocs/SAC_uav のコード。
関連論文リスト
- Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Learning a Single Near-hover Position Controller for Vastly Different
Quadcopters [56.37274861303324]
本稿では,クワッドコプターのための適応型ニアホバー位置制御器を提案する。
これは、非常に異なる質量、大きさ、運動定数を持つクワッドコプターに展開することができる。
また、実行中に未知の障害に迅速に適応する。
論文 参考訳(メタデータ) (2022-09-19T17:55:05Z) - A Deep Reinforcement Learning Strategy for UAV Autonomous Landing on a
Platform [0.0]
物理シミュレーションプラットフォーム(ROS-RL)の一種であるGazeboに基づく強化学習フレームワークを提案する。
我々は,自律着陸問題に対処するために,3つの連続行動空間強化学習アルゴリズムをフレームワークに使用した。
論文 参考訳(メタデータ) (2022-09-07T06:33:57Z) - Adapting Rapid Motor Adaptation for Bipedal Robots [73.5914982741483]
移動制御の急速な適応の最近の進歩を活用し、二足歩行ロボットで作業できるように拡張する。
A-RMAはモデルフリーRLを用いて微調整することで不完全外部推定器の基本方針を適応する。
シミュレーションにおいて,A-RMAはRLベースのベースラインコントローラやモデルベースコントローラよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-30T17:59:09Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Learning of Long-Horizon Sparse-Reward Robotic Manipulator Tasks with
Base Controllers [26.807673929816026]
本稿では,1つ以上の従来型ベースコントローラを用いた長軸スパース・リワードタスクの学習手法を提案する。
提案アルゴリズムは,既存のベースコントローラを探索,価値学習,ポリシー更新の段階に組み込む。
我々の方法は、既存の産業用ロボット操作システムを利用して、より柔軟でインテリジェントなコントローラを構築する可能性を秘めている。
論文 参考訳(メタデータ) (2020-11-24T14:23:57Z) - AirCapRL: Autonomous Aerial Human Motion Capture using Deep
Reinforcement Learning [38.429105809093116]
自律型空中人体モーションキャプチャ(MoCap)のための深部強化学習(RL)に基づくマルチロボット生成コントローラを提案する。
視覚に基づくMoCapに焦点をあて,体ポーズの軌跡を推定し,複数の空飛ぶ車を用いて1人の動く人物を形作る。
論文 参考訳(メタデータ) (2020-07-13T12:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。