論文の概要: Learning Sampling Distributions for Model Predictive Control
- arxiv url: http://arxiv.org/abs/2212.02587v1
- Date: Mon, 5 Dec 2022 20:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:43:03.758937
- Title: Learning Sampling Distributions for Model Predictive Control
- Title(参考訳): モデル予測制御のための学習サンプリング分布
- Authors: Jacob Sacks and Byron Boots
- Abstract要約: モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
- 参考スコア(独自算出の注目度): 36.82905770866734
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sampling-based methods have become a cornerstone of contemporary approaches
to Model Predictive Control (MPC), as they make no restrictions on the
differentiability of the dynamics or cost function and are straightforward to
parallelize. However, their efficacy is highly dependent on the quality of the
sampling distribution itself, which is often assumed to be simple, like a
Gaussian. This restriction can result in samples which are far from optimal,
leading to poor performance. Recent work has explored improving the performance
of MPC by sampling in a learned latent space of controls. However, these
methods ultimately perform all MPC parameter updates and warm-starting between
time steps in the control space. This requires us to rely on a number of
heuristics for generating samples and updating the distribution and may lead to
sub-optimal performance. Instead, we propose to carry out all operations in the
latent space, allowing us to take full advantage of the learned distribution.
Specifically, we frame the learning problem as bi-level optimization and show
how to train the controller with backpropagation-through-time. By using a
normalizing flow parameterization of the distribution, we can leverage its
tractable density to avoid requiring differentiability of the dynamics and cost
function. Finally, we evaluate the proposed approach on simulated robotics
tasks and demonstrate its ability to surpass the performance of prior methods
and scale better with a reduced number of samples.
- Abstract(参考訳): サンプリングに基づく手法はモデル予測制御(MPC)の現代的アプローチの基盤となり、力学やコスト関数の微分可能性に制限を課さず、並列化が容易になった。
しかし、それらの効果はサンプリング分布自体の品質に大きく依存しており、ガウスのような単純なものと見なされることが多い。
この制限により、最適なサンプルが得られず、性能が低下する可能性がある。
最近の研究は、学習した潜在制御空間におけるサンプリングによるMPCの性能改善について検討している。
しかし、これらの手法は最終的に制御空間内の時間ステップ間の全てのMPCパラメータの更新とウォームスタートを実行する。
これにより,サンプルの生成や分布の更新に多数のヒューリスティックを頼りにし,準最適性能につながる可能性がある。
代わりに、学習した分布を最大限に活用できるように、潜在領域で全ての操作を実行することを提案する。
具体的には、学習問題を二段階最適化としてフレーム化し、バックプロパゲーション・タイムでコントローラをトレーニングする方法を示す。
分布の正規化フローパラメータ化を用いることで、そのトラクタブル密度を利用して、ダイナミクスとコスト関数の微分可能性を回避することができる。
最後に,シミュレーションロボットタスクにおける提案手法を評価し,サンプル数を減らすことで,先行手法の性能を上回り,スケール性を向上させる能力を示す。
関連論文リスト
- Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Learning to Optimize in Model Predictive Control [36.82905770866734]
サンプリングベースのモデル予測制御(MPC)は、非滑らかなダイナミクスとコスト関数を推論できる柔軟な制御フレームワークである。
これはサンプリングベースのMPCにおいて特に有用であり,サンプルの数を最小化したいと願う場合が多い。
制御分布をより効果的に更新する方法を学習することで,このノイズと競合できることを示す。
論文 参考訳(メタデータ) (2022-12-05T21:20:10Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Adaptive Client Sampling in Federated Learning via Online Learning with
Bandit Feedback [36.05851452151107]
統合学習(FL)システムは、トレーニングの各ラウンドに関与するクライアントのサブセットをサンプリングする必要があります。
その重要性にもかかわらず、クライアントを効果的にサンプリングする方法には制限がある。
提案手法は,最適化アルゴリズムの収束速度をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2021-12-28T23:50:52Z) - Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC [36.3065978427856]
我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:50:19Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning to Plan Optimally with Flow-based Motion Planner [29.124322674133]
従来の経験から学習した条件付き正規化フローに基づく分布を導入し,これらの手法のサンプリングを改善する。
我々の分布は現在のイシューインスタンスで条件付けでき、将来性のある領域内の構成をサンプリングするための情報的事前情報を提供することができる。
フローベースの正規化ディストリビューションを使用することで、より高速にソリューションを見つけることができ、より少ないサンプルと全体的な実行時のパフォーマンスが向上します。
論文 参考訳(メタデータ) (2020-10-21T21:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。