論文の概要: Toward Scalable Multirobot Control: Fast Policy Learning in Distributed MPC
- arxiv url: http://arxiv.org/abs/2412.19669v1
- Date: Fri, 27 Dec 2024 14:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:41.330527
- Title: Toward Scalable Multirobot Control: Fast Policy Learning in Distributed MPC
- Title(参考訳): スケーラブルなマルチロボット制御を目指して:分散MPCにおける高速ポリシー学習
- Authors: Xinglong Zhang, Wei Pan, Cong Li, Xin Xu, Xiangke Wang, Ronghua Zhang, Dewen Hu,
- Abstract要約: 本稿では,スケーラブルなマルチロボット制御のための分散学習ベース予測制御(DLPC)フレームワークを提案する。
オープンループ制御列を計算する従来のDMPC法とは異なり,本手法は数値解法を使わずに,MSSに対して明示的なクローズループDMPCポリシーを生成する。
学習したコントロールポリシーは、さまざまなロボットスケールでMSSにオンラインにデプロイでき、大規模MSSのスケーラビリティと転送性を向上させることができる。
- 参考スコア(独自算出の注目度): 22.644778818620185
- License:
- Abstract: Distributed model predictive control (DMPC) is promising in achieving optimal cooperative control in multirobot systems (MRS). However, real-time DMPC implementation relies on numerical optimization tools to periodically calculate local control sequences online. This process is computationally demanding and lacks scalability for large-scale, nonlinear MRS. This article proposes a novel distributed learning-based predictive control (DLPC) framework for scalable multirobot control. Unlike conventional DMPC methods that calculate open-loop control sequences, our approach centers around a computationally fast and efficient distributed policy learning algorithm that generates explicit closed-loop DMPC policies for MRS without using numerical solvers. The policy learning is executed incrementally and forward in time in each prediction interval through an online distributed actor-critic implementation. The control policies are successively updated in a receding-horizon manner, enabling fast and efficient policy learning with the closed-loop stability guarantee. The learned control policies could be deployed online to MRS with varying robot scales, enhancing scalability and transferability for large-scale MRS. Furthermore, we extend our methodology to address the multirobot safe learning challenge through a force field-inspired policy learning approach. We validate our approach's effectiveness, scalability, and efficiency through extensive experiments on cooperative tasks of large-scale wheeled robots and multirotor drones. Our results demonstrate the rapid learning and deployment of DMPC policies for MRS with scales up to 10,000 units.
- Abstract(参考訳): 分散モデル予測制御(DMPC)は,マルチロボットシステム(MRS)における最適協調制御を実現する上で有望である。
しかし、リアルタイムDMPCの実装は、オンラインのローカル制御シーケンスを定期的に計算する数値最適化ツールに依存している。
本稿では,スケーラブルなマルチロボット制御のための分散学習ベース予測制御(DLPC)フレームワークを提案する。
オープンループ制御シーケンスを計算する従来のDMPC法とは異なり,本手法は数値解法を使わずに,MSSに対して明示的なクローズループDMPCポリシーを生成する,高速かつ効率的な分散ポリシ学習アルゴリズムを中心にしている。
ポリシー学習は、オンライン分散アクター批判的実装を通じて、予測間隔毎に段階的に前向きに実行される。
制御ポリシは、後退水平方向に順次更新され、クローズドループ安定性を保証することで、迅速かつ効率的なポリシー学習を可能にする。
学習した制御ポリシーは、様々なロボットスケールでMSSにオンラインに展開でき、大規模MSSのスケーラビリティと転送性を向上させることができる。さらに、力場に着想を得たポリシー学習アプローチを通じて、マルチロボット安全な学習課題に対処するために、我々の方法論を拡張した。
大規模車輪ロボットとマルチロータドローンの協調作業に関する広範な実験を通じて,本手法の有効性,スケーラビリティ,効率性を検証した。
本研究は,最大1万単位のMDSを対象としたDMPCポリシーの迅速な学習と展開を実証するものである。
関連論文リスト
- Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Tube-NeRF: Efficient Imitation Learning of Visuomotor Policies from MPC
using Tube-Guided Data Augmentation and NeRFs [42.220568722735095]
感性学習(IL)は資源集約型モデル予測制御器(MPC)から計算効率の高い感触者ポリシーを訓練できる
本稿では,ビジョンベースのポリシーを効率的に学習するデータ拡張(DA)戦略を提案する。
実演効率は80倍に向上し,現行のIL法に比べてトレーニング時間を50%削減した。
論文 参考訳(メタデータ) (2023-11-23T18:54:25Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Training Efficient Controllers via Analytic Policy Gradient [44.0762454494769]
ロボットシステムの制御設計は複雑であり、しばしば軌道を正確に追従するために最適化を解く必要がある。
Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。
本稿では,この問題に対処するための分析政策グラディエント(APG)手法を提案する。
論文 参考訳(メタデータ) (2022-09-26T22:04:35Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Lyapunov-Based Reinforcement Learning for Decentralized Multi-Agent
Control [3.3788926259119645]
分散マルチエージェント制御では、システムは未知あるいは非常に不確実なダイナミクスで複雑である。
深層強化学習(DRL)は、システムダイナミクスを知らずに、データからコントローラや政治を学ぶことを約束している。
既存のマルチエージェント強化学習(MARL)アルゴリズムは、マルチエージェントシステムの閉ループ安定性を保証することができない。
安定保証付き分散マルチエージェント制御のための新しいMARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-20T06:11:42Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。