論文の概要: Learning to Optimize in Model Predictive Control
- arxiv url: http://arxiv.org/abs/2212.02603v1
- Date: Mon, 5 Dec 2022 21:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:23:39.127330
- Title: Learning to Optimize in Model Predictive Control
- Title(参考訳): モデル予測制御における最適学習
- Authors: Jacob Sacks, Byron Boots
- Abstract要約: サンプリングベースのモデル予測制御(MPC)は、非滑らかなダイナミクスとコスト関数を推論できる柔軟な制御フレームワークである。
これはサンプリングベースのMPCにおいて特に有用であり,サンプルの数を最小化したいと願う場合が多い。
制御分布をより効果的に更新する方法を学習することで,このノイズと競合できることを示す。
- 参考スコア(独自算出の注目度): 36.82905770866734
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sampling-based Model Predictive Control (MPC) is a flexible control framework
that can reason about non-smooth dynamics and cost functions. Recently,
significant work has focused on the use of machine learning to improve the
performance of MPC, often through learning or fine-tuning the dynamics or cost
function. In contrast, we focus on learning to optimize more effectively. In
other words, to improve the update rule within MPC. We show that this can be
particularly useful in sampling-based MPC, where we often wish to minimize the
number of samples for computational reasons. Unfortunately, the cost of
computational efficiency is a reduction in performance; fewer samples results
in noisier updates. We show that we can contend with this noise by learning how
to update the control distribution more effectively and make better use of the
few samples that we have. Our learned controllers are trained via imitation
learning to mimic an expert which has access to substantially more samples. We
test the efficacy of our approach on multiple simulated robotics tasks in
sample-constrained regimes and demonstrate that our approach can outperform a
MPC controller with the same number of samples.
- Abstract(参考訳): サンプリングベースモデル予測制御(mpc)は、非スムースダイナミクスとコスト関数を推論できる柔軟な制御フレームワークである。
近年、機械学習によるMPCの性能向上に焦点が当てられ、しばしば力学やコスト関数の学習や微調整を通じて行われている。
対照的に、より効果的に最適化する学習にフォーカスしています。
言い換えれば、mpc内の更新ルールを改善する。
これはサンプリングベースのMPCにおいて特に有用であり,計算上の理由からサンプル数を最小化したいと考える場合が多い。
残念なことに、計算効率のコストはパフォーマンスの低下であり、サンプルが少ないとノイズが多い。
我々は,制御分布をより効果的に更新する方法を習得し,少数のサンプルをより有効に利用することで,このノイズに対抗できることを示す。
学習したコントローラは模倣学習を通じてトレーニングされ、相当多くのサンプルにアクセス可能な専門家を模倣します。
サンプル制約型システムにおける複数のロボットタスクに対するアプローチの有効性を検証し、同じ数のサンプルでMPCコントローラより優れていることを示す。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Towards an Adaptable and Generalizable Optimization Engine in Decision
and Control: A Meta Reinforcement Learning Approach [6.302621910090619]
メタ強化学習(RL)に基づいてMPCコントローラを学習し、コントローラを更新する。
これは専門家によるデモンストレーションを必要とせず、目に見えないコントロールタスクにデプロイされた場合の迅速な適応を可能にする。
論文 参考訳(メタデータ) (2024-01-04T19:41:33Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC [36.3065978427856]
我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:50:19Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。