論文の概要: Training Efficient Controllers via Analytic Policy Gradient
- arxiv url: http://arxiv.org/abs/2209.13052v3
- Date: Tue, 2 May 2023 21:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 18:41:02.102463
- Title: Training Efficient Controllers via Analytic Policy Gradient
- Title(参考訳): 分析ポリシー勾配による効率的な制御器の訓練
- Authors: Nina Wiedemann, Valentin W\"uest, Antonio Loquercio, Matthias
M\"uller, Dario Floreano, Davide Scaramuzza
- Abstract要約: ロボットシステムの制御設計は複雑であり、しばしば軌道を正確に追従するために最適化を解く必要がある。
Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。
本稿では,この問題に対処するための分析政策グラディエント(APG)手法を提案する。
- 参考スコア(独自算出の注目度): 44.0762454494769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Control design for robotic systems is complex and often requires solving an
optimization to follow a trajectory accurately. Online optimization approaches
like Model Predictive Control (MPC) have been shown to achieve great tracking
performance, but require high computing power. Conversely, learning-based
offline optimization approaches, such as Reinforcement Learning (RL), allow
fast and efficient execution on the robot but hardly match the accuracy of MPC
in trajectory tracking tasks. In systems with limited compute, such as aerial
vehicles, an accurate controller that is efficient at execution time is
imperative. We propose an Analytic Policy Gradient (APG) method to tackle this
problem. APG exploits the availability of differentiable simulators by training
a controller offline with gradient descent on the tracking error. We address
training instabilities that frequently occur with APG through curriculum
learning and experiment on a widely used controls benchmark, the CartPole, and
two common aerial robots, a quadrotor and a fixed-wing drone. Our proposed
method outperforms both model-based and model-free RL methods in terms of
tracking error. Concurrently, it achieves similar performance to MPC while
requiring more than an order of magnitude less computation time. Our work
provides insights into the potential of APG as a promising control method for
robotics. To facilitate the exploration of APG, we open-source our code and
make it available at https://github.com/lis-epfl/apg_trajectory_tracking.
- Abstract(参考訳): ロボットシステムの制御設計は複雑であり、軌道を正確に追従するには最適化の解決がしばしば必要となる。
Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。
逆に、Reinforcement Learning (RL)のような学習ベースのオフライン最適化アプローチは、ロボット上で高速かつ効率的な実行を可能にするが、軌道追跡タスクにおけるMPCの精度とはほとんど一致しない。
航空車両のような限られた計算量を持つシステムでは、実行時に効率的な正確な制御装置が必須である。
この問題に対処するための分析政策勾配法(APG)を提案する。
APGは、トラッキングエラーの勾配降下でコントローラをオフラインにトレーニングすることで、差別化可能なシミュレータの可用性を活用する。
カリキュラム学習を通じてAPGで頻繁に発生するトレーニングの不安定性に対処し、広く使われているコントロールベンチマークであるCartPoleと、一般的な2つの空中ロボットである四輪車と固定翼ドローンを実験する。
提案手法は, モデルベースおよびモデルフリーの rl 手法を追跡誤差の点で上回っている。
同時に、計算時間を桁違いに少なくしながら、MPCと同じような性能を実現する。
我々の研究は、ロボット工学の有望な制御方法としてのapgの可能性に関する洞察を提供する。
APGの探索を容易にするため、私たちはコードをオープンソースにしてhttps://github.com/lis-epfl/apg_trajectory_tracking.comで公開しています。
関連論文リスト
- Tangled Program Graphs as an alternative to DRL-based control algorithms for UAVs [0.43695508295565777]
ディープ強化学習(Dep reinforcement Learning, DRL)は、現在、自動運転車の制御において最も一般的なAIベースのアプローチである。
このアプローチには、高い計算要求と低い説明可能性という、いくつかの大きな欠点がある。
本稿では,DRLの代替としてTangled Program Graphs (TPG) を提案する。
論文 参考訳(メタデータ) (2024-11-08T14:20:29Z) - Goal-Conditioned Terminal Value Estimation for Real-time and Multi-task Model Predictive Control [1.2687745030755995]
マルチタスクポリシー最適化を実現するために,目標条件付き端末値学習を用いたMPCフレームワークを開発した。
提案手法を2足歩行逆振りロボットモデルで評価し,目標条件付き終端値学習と上層軌道プランナーを組み合わせることで,リアルタイムに制御できることを確認する。
論文 参考訳(メタデータ) (2024-10-07T11:19:23Z) - Leveraging Symmetry to Accelerate Learning of Trajectory Tracking Controllers for Free-Flying Robotic Systems [24.360194697715382]
トラッキングコントローラにより、ロボットシステムは計画された基準軌道を正確に追従することができる。
本研究では,フローティングベースを持つロボットシステムの固有リー群対称性を活用して,トラッキングコントローラの学習における課題を軽減する。
その結果,対称性を意識したアプローチはトレーニングを加速し,同一のトレーニングステップの後に追跡誤差を減少させることがわかった。
論文 参考訳(メタデータ) (2024-09-17T14:39:24Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Adaptive Optimal Trajectory Tracking Control Applied to a Large-Scale
Ball-on-Plate System [0.0]
ADPを用いた大規模ボール・オン・プレートシステムのための最適軌道追従制御器を提案する。
提案手法では,セットポイントトラッキングの代わりに参照軌道を近似し,一定のオフセット項を自動的に補償することができる。
実験の結果, このトラッキング機構は, セットポイントコントローラに比べて制御コストを大幅に削減することがわかった。
論文 参考訳(メタデータ) (2020-10-26T11:22:03Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。