論文の概要: Soft MPCritic: Amortized Model Predictive Value Iteration
- arxiv url: http://arxiv.org/abs/2604.01477v1
- Date: Wed, 01 Apr 2026 23:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.109003
- Title: Soft MPCritic: Amortized Model Predictive Value Iteration
- Title(参考訳): ソフトMPCritic: 修正済みモデル予測値イテレーション
- Authors: Thomas Banker, Nathan P. Lawrence, Ali Mesbah,
- Abstract要約: 本稿では,(ソフト)値空間で学習するRL-MPCフレームワークであるMPCriticを提案する。
ソフトMPCriticはモデル予測経路積分制御(MPPI)によりMPCをインスタンス化する
オンライン観測から計画されたオープンループアクションシーケンスをリサイクルする,アモータイズされたウォームスタート戦略を導入する。
- 参考スコア(独自算出の注目度): 2.217971863441725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) and model predictive control (MPC) offer complementary strengths, yet combining them at scale remains computationally challenging. We propose soft MPCritic, an RL-MPC framework that learns in (soft) value space while using sample-based planning for both online control and value target generation. soft MPCritic instantiates MPC through model predictive path integral control (MPPI) and trains a terminal Q-function with fitted value iteration, aligning the learned value function with the planner and implicitly extending the effective planning horizon. We introduce an amortized warm-start strategy that recycles planned open-loop action sequences from online observations when computing batched MPPI-based value targets. This makes soft MPCritic computationally practical, while preserving solution quality. soft MPCritic plans in a scenario-based fashion with an ensemble of dynamic models trained for next-step prediction accuracy. Together, these ingredients enable soft MPCritic to learn effectively through robust, short-horizon planning on classic and complex control tasks. These results establish soft MPCritic as a practical and scalable blueprint for synthesizing MPC policies in settings where policy extraction and direct, long-horizon planning may fail.
- Abstract(参考訳): 強化学習(RL)とモデル予測制御(MPC)は相補的な強みを提供するが、それらを大規模に組み合わせることは計算的に困難である。
我々は,オンライン制御と値目標生成の両方にサンプルベース計画を用いて,(ソフト)値空間で学習するRL-MPCフレームワークであるMPCriticを提案する。
ソフトMPCriticは、モデル予測経路積分制御(MPPI)を介してMPCをインスタンス化し、学習した値関数をプランナーと整列させ、効果的プランニング水平線を暗黙的に拡張する。
バッチ化されたMPPIベースの値ターゲットの計算において、オンライン観測から計画されたオープンループアクションシーケンスをリサイクルする、アモータイズされたウォームスタート戦略を導入する。
これにより、解の品質を維持しながら、ソフトなMPCritic計算が実用的になる。
ソフトMPCriticはシナリオベースで計画されており、次のステップの予測精度のためにトレーニングされた動的モデルの集合体である。
これらの要素が組み合わさって、ソフトMPCriticは古典的かつ複雑な制御タスクに関する堅牢で短期的な計画を通じて効果的に学習することができる。
これらの結果は、ポリシー抽出と直接的長期計画が失敗する可能性のある環境でMPCポリシーを合成するための実用的でスケーラブルな青写真として、ソフトMPCriticを確立している。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。
標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。
MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T02:31:52Z) - MPCritic: A plug-and-play MPC architecture for reinforcement learning [2.217971863441725]
本稿では,MPCriticについて述べる。MPCriticは機械学習に優しいアーキテクチャで,MPCツールとシームレスに連携する。
MPCriticは、パラメータ化されたMPC問題によって定義された損失状況を利用して、バッチトレーニングステップに対する"ソフト"最適化に重点を置いている。
論文 参考訳(メタデータ) (2025-04-01T18:07:07Z) - Improved Monte Carlo Planning via Causal Disentanglement for Structurally-Decomposed Markov Decision Processes [0.9768138268100163]
本稿では,MDPの時間的因果グラフを独立成分に分割するために,因果解離を利用した構造分解型MDP(SD-MDP)を提案する。
様々な物流および金融分野のベンチマークよりも優れた政策性能を示す。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - ABC-LMPC: Safe Sample-Based Learning MPC for Stochastic Nonlinear
Dynamical Systems with Adjustable Boundary Conditions [34.44010424789202]
本稿では,新しいLMPCアルゴリズムであるadjustable boundary LMPC(ABC-LMPC)を提案する。
提案手法は,3つの連続制御タスクの初期および終端条件に適応できることを実験的に実証する。
論文 参考訳(メタデータ) (2020-03-03T09:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。