論文の概要: Deep Model Predictive Optimization
- arxiv url: http://arxiv.org/abs/2310.04590v1
- Date: Fri, 6 Oct 2023 21:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:40:21.568968
- Title: Deep Model Predictive Optimization
- Title(参考訳): 深層モデル予測最適化
- Authors: Jacob Sacks, Rwik Rana, Kevin Huang, Alex Spitzer, Guanya Shi, Byron
Boots
- Abstract要約: ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
- 参考スコア(独自算出の注目度): 21.22047409735362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge in robotics is to design robust policies which enable
complex and agile behaviors in the real world. On one end of the spectrum, we
have model-free reinforcement learning (MFRL), which is incredibly flexible and
general but often results in brittle policies. In contrast, model predictive
control (MPC) continually re-plans at each time step to remain robust to
perturbations and model inaccuracies. However, despite its real-world
successes, MPC often under-performs the optimal strategy. This is due to model
quality, myopic behavior from short planning horizons, and approximations due
to computational constraints. And even with a perfect model and enough compute,
MPC can get stuck in bad local optima, depending heavily on the quality of the
optimization algorithm. To this end, we propose Deep Model Predictive
Optimization (DMPO), which learns the inner-loop of an MPC optimization
algorithm directly via experience, specifically tailored to the needs of the
control problem. We evaluate DMPO on a real quadrotor agile trajectory tracking
task, on which it improves performance over a baseline MPC algorithm for a
given computational budget. It can outperform the best MPC algorithm by up to
27% with fewer samples and an end-to-end policy trained with MFRL by 19%.
Moreover, because DMPO requires fewer samples, it can also achieve these
benefits with 4.3X less memory. When we subject the quadrotor to turbulent wind
fields with an attached drag plate, DMPO can adapt zero-shot while still
outperforming all baselines. Additional results can be found at
https://tinyurl.com/mr2ywmnw.
- Abstract(参考訳): ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
スペクトルの一方にはモデルフリー強化学習(MFRL)があり、これは信じられないほど柔軟で汎用的であるが、しばしば脆弱なポリシーをもたらす。
対照的に、モデル予測制御(mpc)は、摂動やモデルの不正確さに頑健なまま、各時間ステップで継続的に再計画する。
しかし、実際の成功にもかかわらず、MPCはしばしば最適戦略を過小評価する。
これは、モデル品質、短い計画の地平線からの近視的行動、計算上の制約による近似によるものである。
そして、完璧なモデルと十分な計算量であっても、最適化アルゴリズムの品質に大きく依存して、MPCは悪いローカル最適化で立ち往生する可能性がある。
そこで本研究では,mpc最適化アルゴリズムの内部ループを経験を通して直接学習し,特に制御問題のニーズに合わせて学習する深層モデル予測最適化(dmpo)を提案する。
DMPOを実四重項アジャイル軌道追跡タスクで評価し、与えられた計算予算に対するベースラインMPCアルゴリズムよりも性能を向上させる。
MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
さらに、DMPOはサンプルが少ないため、4.3倍のメモリでこれらの利点を得ることができる。
誘電体をドラッグプレートを付加した乱流風場に印加した場合、DMPOはゼロショットに適応できるが、全てのベースラインを上回り続ける。
さらなる結果はhttps://tinyurl.com/mr2ywmnwで見ることができる。
関連論文リスト
- Transformer-based Model Predictive Control: Trajectory Optimization via Sequence Modeling [16.112708478263745]
本稿では,最適化に基づく学習手法の主な強みを組み合わせた統合フレームワークを提案する。
我々のアプローチでは、最適化プロセス内に高容量、トランスフォーマーベースのニューラルネットワークモデルを組み込む必要がある。
純粋に最適化に基づくアプローチと比較すると,提案手法では最大75%の性能向上が期待できる。
論文 参考訳(メタデータ) (2024-10-31T13:23:10Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Learning Model Predictive Controllers for Real-Time Ride-Hailing Vehicle
Relocation and Pricing Decisions [15.80796896560034]
大規模配車システムは、個々の要求レベルでのリアルタイムルーティングと、動的価格設定と車両の移動のためのマクロなモデル予測制御(MPC)の最適化を組み合わせることが多い。
本稿では、MPC最適化を学習することで、これらの計算課題に対処する。
結果の機械学習モデルは最適化プロキシとして機能し、その最適解を予測する。
論文 参考訳(メタデータ) (2021-11-05T00:52:15Z) - Neural Predictive Control for the Optimization of Smart Grid Flexibility
Schedules [0.0]
モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。
MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。
線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御方式を提案する。
論文 参考訳(メタデータ) (2021-08-19T15:12:35Z) - Optimal Cost Design for Model Predictive Control [30.86835688868485]
多くのロボティクスドメインは、計画に非モデル制御(MPC)を使用し、時間的地平線を減らし、最適化を行い、各ステップで再計画を行う。
本研究では, MPC を用いて最適化するコストは, タスクの真理コスト(端末コスト)と同等である,という一般的な仮定に挑戦する。
連続型MDPにおけるMPC計画ロボットの最適コストを設計できるゼロ階トラジェクトリに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-23T00:00:58Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。