論文の概要: Pontryagin Differentiable Programming: An End-to-End Learning and
Control Framework
- arxiv url: http://arxiv.org/abs/1912.12970v5
- Date: Tue, 12 Jan 2021 14:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 03:12:21.257805
- Title: Pontryagin Differentiable Programming: An End-to-End Learning and
Control Framework
- Title(参考訳): pontryagin differentiable programming: エンドツーエンドの学習と制御フレームワーク
- Authors: Wanxin Jin, Zhaoran Wang, Zhuoran Yang, Shaoshuai Mou
- Abstract要約: ポントリャーギン微分プログラミングの方法論は、幅広い種類の学習と制御タスクを解決するための統一されたフレームワークを確立する。
本研究では, PDP の逆強化学習, システム識別, 制御・計画の3つの学習モードについて検討する。
マルチリンクロボットアーム,6-DoFオペレーティングクオーロレータ,6-DoFロケット搭載着陸など,多次元システムにおける学習モード毎のPDPの能力を示す。
- 参考スコア(独自算出の注目度): 108.4560749465701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops a Pontryagin Differentiable Programming (PDP)
methodology, which establishes a unified framework to solve a broad class of
learning and control tasks. The PDP distinguishes from existing methods by two
novel techniques: first, we differentiate through Pontryagin's Maximum
Principle, and this allows to obtain the analytical derivative of a trajectory
with respect to tunable parameters within an optimal control system, enabling
end-to-end learning of dynamics, policies, or/and control objective functions;
and second, we propose an auxiliary control system in the backward pass of the
PDP framework, and the output of this auxiliary control system is the
analytical derivative of the original system's trajectory with respect to the
parameters, which can be iteratively solved using standard control tools. We
investigate three learning modes of the PDP: inverse reinforcement learning,
system identification, and control/planning. We demonstrate the capability of
the PDP in each learning mode on different high-dimensional systems, including
multi-link robot arm, 6-DoF maneuvering quadrotor, and 6-DoF rocket powered
landing.
- Abstract(参考訳): 本稿では,pdp(pontryagin differentiable programming)手法を開発し,学習と制御タスクの幅広いクラスを解決するための統一フレームワークを構築した。
The PDP distinguishes from existing methods by two novel techniques: first, we differentiate through Pontryagin's Maximum Principle, and this allows to obtain the analytical derivative of a trajectory with respect to tunable parameters within an optimal control system, enabling end-to-end learning of dynamics, policies, or/and control objective functions; and second, we propose an auxiliary control system in the backward pass of the PDP framework, and the output of this auxiliary control system is the analytical derivative of the original system's trajectory with respect to the parameters, which can be iteratively solved using standard control tools.
逆強化学習,システム識別,制御・計画の3つの学習モードについて検討した。
マルチリンクロボットアーム,6-DoF操縦四極子,6-DoFロケット搭載着陸など,多次元システムにおける学習モード毎のPDPの能力を示す。
関連論文リスト
- Modelling, Positioning, and Deep Reinforcement Learning Path Tracking
Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。
本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。
実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文 参考訳(メタデータ) (2024-01-10T14:40:53Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Convex Programs and Lyapunov Functions for Reinforcement Learning: A
Unified Perspective on the Analysis of Value-Based Methods [3.9391112596932243]
価値に基づく手法はマルコフ決定過程(MDP)と強化学習(RL)において基本的役割を果たす
本稿では、価値計算(VC)、価値反復(VI)、時間差(TD)学習などの価値に基づく手法を統一的に分析するための制御理論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-14T18:32:57Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Deep Learning Explicit Differentiable Predictive Control Laws for
Buildings [1.4121977037543585]
未知の非線形システムに対する制約付き制御法を学習するための微分予測制御(DPC)手法を提案する。
DPCは、明示的非線形モデル予測制御(MPC)から生じるマルチパラメトリックプログラミング問題に対する近似解を提供する
論文 参考訳(メタデータ) (2021-07-25T16:47:57Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Extended Radial Basis Function Controller for Reinforcement Learning [3.42658286826597]
本稿では,モデルベース線形コントローラと任意の微分可能なポリシを動的に補間するハイブリッド強化学習コントローラを提案する。
線形制御器は、局所線形化モデル知識に基づいて設計され、運転点付近のシステムを安定化する。
学習はモデルベース(PILCO)とモデルフリー(DDPG)の両方のフレームワークで行われている。
論文 参考訳(メタデータ) (2020-09-12T20:56:48Z) - Reinforcement Learning based Design of Linear Fixed Structure
Controllers [3.131740922192114]
線形固定構造制御器をチューニングするために,ランダム探索に基づく単純な有限差分法を提案する。
本アルゴリズムは,システムの全閉ループステップ応答で動作し,所望の閉ループ応答に対するPIDゲインを反復的に改善する。
論文 参考訳(メタデータ) (2020-05-10T00:53:11Z) - Learning to Control PDEs with Differentiable Physics [102.36050646250871]
本稿では,ニューラルネットワークが長い時間をかけて複雑な非線形物理系の理解と制御を学べる新しい階層型予測器・相関器手法を提案する。
本手法は,複雑な物理系の理解に成功し,PDEに関わるタスクに対してそれらを制御できることを実証する。
論文 参考訳(メタデータ) (2020-01-21T11:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。