論文の概要: Bootstrapped Model Predictive Control
- arxiv url: http://arxiv.org/abs/2503.18871v1
- Date: Mon, 24 Mar 2025 16:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:21.788649
- Title: Bootstrapped Model Predictive Control
- Title(参考訳): ブートストラップモデル予測制御
- Authors: Yuhang Wang, Hanwei Guo, Sizhe Wang, Long Qian, Xuguang Lan,
- Abstract要約: 本稿では,ブートストラップ方式でポリシー学習を行う新しいアルゴリズムであるBootstrapped Model Predictive Control(BMPC)を紹介する。
BMPCは、MPCの専門家を模倣してネットワークポリシーを学び、その結果、MPCプロセスのガイドにこのポリシーを使用する。
本手法は,各種連続制御タスクの先行作業よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 19.652808098339644
- License:
- Abstract: Model Predictive Control (MPC) has been demonstrated to be effective in continuous control tasks. When a world model and a value function are available, planning a sequence of actions ahead of time leads to a better policy. Existing methods typically obtain the value function and the corresponding policy in a model-free manner. However, we find that such an approach struggles with complex tasks, resulting in poor policy learning and inaccurate value estimation. To address this problem, we leverage the strengths of MPC itself. In this work, we introduce Bootstrapped Model Predictive Control (BMPC), a novel algorithm that performs policy learning in a bootstrapped manner. BMPC learns a network policy by imitating an MPC expert, and in turn, uses this policy to guide the MPC process. Combined with model-based TD-learning, our policy learning yields better value estimation and further boosts the efficiency of MPC. We also introduce a lazy reanalyze mechanism, which enables computationally efficient imitation learning. Our method achieves superior performance over prior works on diverse continuous control tasks. In particular, on challenging high-dimensional locomotion tasks, BMPC significantly improves data efficiency while also enhancing asymptotic performance and training stability, with comparable training time and smaller network sizes. Code is available at https://github.com/wertyuilife2/bmpc.
- Abstract(参考訳): モデル予測制御(MPC)は連続制御タスクに有効であることが示されている。
ワールドモデルとバリュー関数が利用可能であれば、前もって一連のアクションを計画することは、より良いポリシーにつながる。
既存の手法は通常、モデルなしの方法で値関数と対応するポリシーを得る。
しかし、このようなアプローチは複雑なタスクに苦しむため、政策学習の貧弱さや不正確な価値推定に繋がる。
この問題に対処するために,我々はMPC自体の強みを活用している。
本研究では,ブートストラップ型モデル予測制御(BMPC)を提案する。
BMPCは、MPCの専門家を模倣してネットワークポリシーを学び、その結果、MPCプロセスのガイドにこのポリシーを使用する。
モデルに基づくTD学習と組み合わせることで、私たちの政策学習はより良い価値推定をもたらし、MPCの効率をさらに向上させる。
また、計算効率の良い模倣学習を可能にする遅延再解析機構も導入する。
本手法は,各種連続制御タスクの先行作業よりも優れた性能を実現する。
特に、高次元の移動タスクに挑戦する上で、BMPCは、漸近的なパフォーマンスとトレーニング安定性を向上しつつ、データ効率を著しく向上させ、同等のトレーニング時間とネットワークサイズを小さくする。
コードはhttps://github.com/wertyuilife2/bmpc.comで入手できる。
関連論文リスト
- Goal-Conditioned Terminal Value Estimation for Real-time and Multi-task Model Predictive Control [1.2687745030755995]
マルチタスクポリシー最適化を実現するために,目標条件付き端末値学習を用いたMPCフレームワークを開発した。
提案手法を2足歩行逆振りロボットモデルで評価し,目標条件付き終端値学習と上層軌道プランナーを組み合わせることで,リアルタイムに制御できることを確認する。
論文 参考訳(メタデータ) (2024-10-07T11:19:23Z) - On Building Myopic MPC Policies using Supervised Learning [0.0]
本稿では,教師付き学習を用いて最適値関数をオフラインで学習する代替戦略について考察する。
これは、非常に短い予測地平線を持つミオピックMPCのコスト・ツー・ゴー関数として使用できる。
論文 参考訳(メタデータ) (2024-01-23T08:08:09Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Efficient Deep Learning of Robust, Adaptive Policies using Tube
MPC-Guided Data Augmentation [42.66792060626531]
既存のロバストで適応的なコントローラは、オンライン上の重い計算を犠牲にして、素晴らしいパフォーマンスを達成することができる。
我々は、MPCからの堅牢なポリシー学習のための既存の効率的なImitation Learning(IL)アルゴリズムを拡張し、挑戦的なモデル/環境の不確実性に対応するポリシーを学習する能力を拡張した。
論文 参考訳(メタデータ) (2023-03-28T02:22:47Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。