論文の概要: Training Efficient Controllers via Analytic Policy Gradient
- arxiv url: http://arxiv.org/abs/2209.13052v1
- Date: Mon, 26 Sep 2022 22:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 16:09:29.409301
- Title: Training Efficient Controllers via Analytic Policy Gradient
- Title(参考訳): 分析ポリシー勾配による効率的な制御器の訓練
- Authors: Nina Wiedemann, Valentin W\"uest, Antonio Loquercio, Matthias
M\"uller, Dario Floreano, Davide Scaramuzza
- Abstract要約: ロボットシステムの制御設計は複雑であり、しばしば軌道を正確に追従するために最適化を解く必要がある。
Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。
本稿では,この問題に対処するための分析政策グラディエント(APG)手法を提案する。
- 参考スコア(独自算出の注目度): 44.0762454494769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Control design for robotic systems is complex and often requires solving an
optimization to follow a trajectory accurately. Online optimization approaches
like Model Predictive Control (MPC) have been shown to achieve great tracking
performance, but require high computing power. Conversely, learning-based
offline optimization approaches, such as Reinforcement Learning (RL), allow
fast and efficient execution on the robot but hardly match the accuracy of MPC
in trajectory tracking tasks. In systems with limited compute, such as aerial
vehicles, an accurate controller that is efficient at execution time is
imperative. We propose an Analytic Policy Gradient (APG) method to tackle this
problem. APG exploits the availability of differentiable simulators by training
a controller offline with gradient descent on the tracking error. We address
training instabilities that frequently occur with APG through curriculum
learning and experiment on a widely used controls benchmark, the CartPole, and
two common aerial robots, a quadrotor and a fixed-wing drone. Our proposed
method outperforms both model-based and model-free RL methods in terms of
tracking error. Concurrently, it achieves similar performance to MPC while
requiring more than an order of magnitude less computation time. Our work
provides insights into the potential of APG as a promising control method for
robotics. To facilitate the exploration of APG, we open-source our code and
make it available at https://github.com/lis-epfl/apg_trajectory_tracking.
- Abstract(参考訳): ロボットシステムの制御設計は複雑であり、軌道を正確に追従するには最適化の解決がしばしば必要となる。
Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。
逆に、Reinforcement Learning (RL)のような学習ベースのオフライン最適化アプローチは、ロボット上で高速かつ効率的な実行を可能にするが、軌道追跡タスクにおけるMPCの精度とはほとんど一致しない。
航空車両のような限られた計算量を持つシステムでは、実行時に効率的な正確な制御装置が必須である。
この問題に対処するための分析政策勾配法(APG)を提案する。
APGは、トラッキングエラーの勾配降下でコントローラをオフラインにトレーニングすることで、差別化可能なシミュレータの可用性を活用する。
カリキュラム学習を通じてAPGで頻繁に発生するトレーニングの不安定性に対処し、広く使われているコントロールベンチマークであるCartPoleと、一般的な2つの空中ロボットである四輪車と固定翼ドローンを実験する。
提案手法は, モデルベースおよびモデルフリーの rl 手法を追跡誤差の点で上回っている。
同時に、計算時間を桁違いに少なくしながら、MPCと同じような性能を実現する。
我々の研究は、ロボット工学の有望な制御方法としてのapgの可能性に関する洞察を提供する。
APGの探索を容易にするため、私たちはコードをオープンソースにしてhttps://github.com/lis-epfl/apg_trajectory_tracking.comで公開しています。
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Modelling, Positioning, and Deep Reinforcement Learning Path Tracking
Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。
本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。
実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文 参考訳(メタデータ) (2024-01-10T14:40:53Z) - Learning to Fly in Seconds [8.159171440455824]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Tracking Control for a Spherical Pendulum via Curriculum Reinforcement
Learning [27.73555826776087]
強化学習(RL)は、データから純粋に非自明なロボット制御法を学習することを可能にする。
本稿では,大規模並列化シミュレーションに基づいてRLでキュリキュラを自動構築するアルゴリズムを提案する。
非線形トラッキングタスクに対する状態推定と制御を共同で学習するカリキュラムRLの可能性を示す。
論文 参考訳(メタデータ) (2023-09-25T12:48:47Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Integrated Decision and Control: Towards Interpretable and Efficient
Driving Intelligence [13.589285628074542]
自動走行車のための解釈可能かつ効率的な意思決定・制御フレームワークを提案する。
駆動タスクを階層的に構造化されたマルチパス計画と最適追跡に分解する。
その結果,オンライン計算の効率性や交通効率,安全性などの運転性能が向上した。
論文 参考訳(メタデータ) (2021-03-18T14:43:31Z) - Adaptive Optimal Trajectory Tracking Control Applied to a Large-Scale
Ball-on-Plate System [0.0]
ADPを用いた大規模ボール・オン・プレートシステムのための最適軌道追従制御器を提案する。
提案手法では,セットポイントトラッキングの代わりに参照軌道を近似し,一定のオフセット項を自動的に補償することができる。
実験の結果, このトラッキング機構は, セットポイントコントローラに比べて制御コストを大幅に削減することがわかった。
論文 参考訳(メタデータ) (2020-10-26T11:22:03Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。