論文の概要: Model Predictive Control via On-Policy Imitation Learning
- arxiv url: http://arxiv.org/abs/2210.09206v1
- Date: Mon, 17 Oct 2022 16:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:49:43.683884
- Title: Model Predictive Control via On-Policy Imitation Learning
- Title(参考訳): オンポリシー模倣学習によるモデル予測制御
- Authors: Kwangjun Ahn, Zakaria Mhammedi, Horia Mania, Zhang-Wei Hong, Ali
Jadbabaie
- Abstract要約: 我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
- 参考スコア(独自算出の注目度): 28.96122879515294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we leverage the rapid advances in imitation learning, a topic
of intense recent focus in the Reinforcement Learning (RL) literature, to
develop new sample complexity results and performance guarantees for
data-driven Model Predictive Control (MPC) for constrained linear systems. In
its simplest form, imitation learning is an approach that tries to learn an
expert policy by querying samples from an expert. Recent approaches to
data-driven MPC have used the simplest form of imitation learning known as
behavior cloning to learn controllers that mimic the performance of MPC by
online sampling of the trajectories of the closed-loop MPC system. Behavior
cloning, however, is a method that is known to be data inefficient and suffer
from distribution shifts. As an alternative, we develop a variant of the
forward training algorithm which is an on-policy imitation learning method
proposed by Ross et al. (2010). Our algorithm uses the structure of constrained
linear MPC, and our analysis uses the properties of the explicit MPC solution
to theoretically bound the number of online MPC trajectories needed to achieve
optimal performance. We validate our results through simulations and show that
the forward training algorithm is indeed superior to behavior cloning when
applied to MPC.
- Abstract(参考訳): 本稿では,強化学習(rl)文学における近年の注目点である模倣学習の急速な進歩を活用して,制約付き線形システムのためのデータ駆動モデル予測制御(mpc)のための新しいサンプル複雑性結果と性能保証を開発する。
最も単純な形式では、模倣学習は専門家からサンプルを問い合わせて専門家の方針を学ぼうとするアプローチである。
データ駆動型MPCへの最近のアプローチでは、ビヘイビアクローンとして知られる最も単純な模倣学習を用いて、閉ループMPCシステムの軌道をオンラインサンプリングすることで、MPCの性能を模倣するコントローラを学習している。
しかし、振る舞いのクローニングはデータ効率が悪く分布シフトに苦しむことが知られている手法である。
代替案として,ross et al. (2010) が提案したオンポリシー模倣学習法であるフォワードトレーニングアルゴリズムの変種を開発した。
提案手法では,制約付き線形mpcの構造を用い,明示的mpc解の特性を用いて最適性能を達成するために必要なオンラインmpc軌道数を理論的に拘束する。
その結果をシミュレーションにより検証し,mpcに適用した場合,フォワードトレーニングアルゴリズムが行動クローニングよりも優れていることを示す。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Model-based adaptation for sample efficient transfer in reinforcement
learning control of parameter-varying systems [1.8799681615947088]
我々はモデルに基づく制御のアイデアを活用し、強化学習アルゴリズムのサンプル効率問題に対処する。
また,本手法は強化学習のみでの微調整よりもサンプリング効率が高いことを示した。
論文 参考訳(メタデータ) (2023-05-20T10:11:09Z) - Learning-based MPC from Big Data Using Reinforcement Learning [1.3124513975412255]
本稿では,Reinforcement Learning (RL) 手法を用いて,データから直接モデル予測制御(MPC)スキームを学習する手法を提案する。
我々は、RLのツールを用いて、オフラインでデータから直接パラメータ化されたMPCスキームを学習することで、この問題に対処することを提案する。
提案手法は, 収集したデータセットを解くことなく, MPC のスキームを導出し, 既存のビッグデータ手法の計算複雑性を解消する。
論文 参考訳(メタデータ) (2023-01-04T15:39:34Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC [36.3065978427856]
我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:50:19Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - On Training and Evaluation of Neural Network Approaches for Model
Predictive Control [9.8918553325509]
本稿では,制約ニューラルネットワークを用いて実装されたモデル予測制御(MPC)のトレーニングと評価を行うフレームワークである。
モチベーションは、安全クリティカルフィードバック制御システムのリアルタイム最適化を、ニューラルネットワークと最適化層という形で学習されたマッピングに置き換えることである。
論文 参考訳(メタデータ) (2020-05-08T15:37:55Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。