論文の概要: Variational Inference MPC using Normalizing Flows and
Out-of-Distribution Projection
- arxiv url: http://arxiv.org/abs/2205.04667v1
- Date: Tue, 10 May 2022 04:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 19:56:27.180222
- Title: Variational Inference MPC using Normalizing Flows and
Out-of-Distribution Projection
- Title(参考訳): 正規化流れと分布外射影を用いた変分推論mpc
- Authors: Thomas Power and Dmitry Berenson
- Abstract要約: 衝突のないナビゲーションのためのモデル予測制御(MPC)手法を提案する。
ロボットの力学と複雑な障害物測地の両方を考慮に入れた分布を学習する。
プロジェクション付きFlowMPPIは,分布内およびOOD環境において,最先端のMPCベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 7.195824023358536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a Model Predictive Control (MPC) method for collision-free
navigation that uses amortized variational inference to approximate the
distribution of optimal control sequences by training a normalizing flow
conditioned on the start, goal and environment. This representation allows us
to learn a distribution that accounts for both the dynamics of the robot and
complex obstacle geometries. We can then sample from this distribution to
produce control sequences which are likely to be both goal-directed and
collision-free as part of our proposed FlowMPPI sampling-based MPC method.
However, when deploying this method, the robot may encounter an
out-of-distribution (OOD) environment, i.e. one which is radically different
from those used in training. In such cases, the learned flow cannot be trusted
to produce low-cost control sequences. To generalize our method to OOD
environments we also present an approach that performs projection on the
representation of the environment as part of the MPC process. This projection
changes the environment representation to be more in-distribution while also
optimizing trajectory quality in the true environment. Our simulation results
on a 2D double-integrator and a 3D 12DoF underactuated quadrotor suggest that
FlowMPPI with projection outperforms state-of-the-art MPC baselines on both
in-distribution and OOD environments, including OOD environments generated from
real-world data.
- Abstract(参考訳): 本研究では,開始,目標,環境に条件づけられた正規化フローを訓練することにより,最適制御列の分布を近似する不定形変分推論を用いた衝突なしナビゲーションのためのモデル予測制御(mpc)法を提案する。
この表現により、ロボットのダイナミクスと複雑な障害物ジオメトリの両方を考慮した分布を学習できる。
この分布からサンプルを抽出し,フローMPPIサンプリングに基づくMPC法の一部として,目標指向と衝突回避の両方が可能な制御シーケンスを生成する。
しかし,本手法をデプロイする場合,ロボットは,トレーニングで使用するものとは大きく異なる,アウト・オブ・ディストリビューション(OOD)環境に遭遇する可能性がある。
このような場合、学習フローは低コストな制御シーケンスを生成するために信頼できない。
また,本手法をOOD環境に一般化するために,MPCプロセスの一部として環境表現を投影する手法を提案する。
このプロジェクションは、真の環境における軌道品質を最適化しながら、環境表現をより分配的に変える。
2次元2次元インテグレータと3次元12DoF不活性化四重極子を用いたシミュレーションの結果,実際のデータから生成されたOOD環境を含む分布内およびOOD環境において,プロジェクションを用いたフローMPPIが最先端のMPCベースラインより優れていることが示唆された。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Sampling for Model Predictive Trajectory Planning in Autonomous Driving using Normalizing Flows [1.2972104025246092]
本稿では,軌道生成のためのサンプリング手法について検討する。
変分推論の分野を起源とする正規化フローが検討される。
学習に基づく正規化フローモデルは、入力領域のより効率的な探索のために訓練される。
論文 参考訳(メタデータ) (2024-04-15T10:45:12Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - CoVO-MPC: Theoretical Analysis of Sampling-based MPC and Optimal
Covariance Design [8.943418808959494]
我々は,広く使用されているサンプリングベースモデル予測経路積分制御(MPPI)法の収束特性を特徴付ける。
時間変動LQRシステムをカバーする2次最適化では,MPPIは少なくとも線形収束率を満足することを示す。
我々の理論解析は、サンプリングに基づく新しいMPCアルゴリズム、CoVo-MPCに直結する。
実証的には、CoVo-MPCはシミュレーションと現実世界のクワッドアジャイルコントロールの両方で標準MPPIを43~54%上回っている。
論文 参考訳(メタデータ) (2024-01-14T21:10:59Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC [36.3065978427856]
我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:50:19Z) - Parallelised Diffeomorphic Sampling-based Motion Planning [30.310891362316863]
並列化拡散型サンプリングベースモーションプランニング(PDMP)を提案する。
PDMPは、サンプリングベースモーションプランナーのサンプリング分布を、正規化フローに似た方法で変換する。
PDMPは、コストの勾配情報を利用して、最適化ベースのモーションプランニング手法と同様の方法で仕様を注入することができる。
論文 参考訳(メタデータ) (2021-08-26T13:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。