Fugu-MT 論文翻訳(概要): On Building Myopic MPC Policies using Supervised Learning

論文の概要: On Building Myopic MPC Policies using Supervised Learning

arxiv url: http://arxiv.org/abs/2401.12546v1
Date: Tue, 23 Jan 2024 08:08:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 16:32:29.240501
Title: On Building Myopic MPC Policies using Supervised Learning
Title（参考訳）: 教師付き学習を用いたMyopic MPC政策の構築について
Authors: Christopher A. Orrico, Bokan Yang, Dinesh Krishnamoorthy
Abstract要約: 本稿では,教師付き学習を用いて最適値関数をオフラインで学習する代替戦略について考察する。これは、非常に短い予測地平線を持つミオピックMPCのコスト・ツー・ゴー関数として使用できる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The application of supervised learning techniques in combination with model predictive control (MPC) has recently generated significant interest, particularly in the area of approximate explicit MPC, where function approximators like deep neural networks are used to learn the MPC policy via optimal state-action pairs generated offline. While the aim of approximate explicit MPC is to closely replicate the MPC policy, substituting online optimization with a trained neural network, the performance guarantees that come with solving the online optimization problem are typically lost. This paper considers an alternative strategy, where supervised learning is used to learn the optimal value function offline instead of learning the optimal policy. This can then be used as the cost-to-go function in a myopic MPC with a very short prediction horizon, such that the online computation burden reduces significantly without affecting the controller performance. This approach differs from existing work on value function approximations in the sense that it learns the cost-to-go function by using offline-collected state-value pairs, rather than closed-loop performance data. The cost of generating the state-value pairs used for training is addressed using a sensitivity-based data augmentation scheme.
Abstract（参考訳）: モデル予測制御(MPC)と組み合わせた教師付き学習技術の適用は、特に近似的明示的なMPC領域において、オフラインで生成される最適な状態-作用ペアを通じて、深層ニューラルネットワークのような関数近似器を用いてMPCポリシーを学習する分野で、近年大きな関心を集めている。ほぼ明示的なMPCの目的は、トレーニングされたニューラルネットワークでオンライン最適化に代えて、MPCポリシーを忠実に再現することであるが、オンライン最適化問題の解決に伴うパフォーマンス保証は通常失われている。本稿では,最適方針を学習する代わりに,最適価値関数をオフラインで学習するために教師付き学習を用いる方法を提案する。すると、これは非常に短い予測地平線を持つミオピックMPCにおけるコスト・ツー・ゴー機能として利用でき、オンライン計算の負担が制御性能に影響を与えることなく大幅に低減される。このアプローチは、クローズドループのパフォーマンスデータではなく、オフラインで収集された状態値ペアを使用してコスト・ツー・ゴー関数を学ぶという意味で、既存の値関数近似の作業とは異なる。トレーニングに使用する状態値ペアを生成するコストは、感度ベースのデータ拡張スキームを用いて対処する。

関連論文リスト

Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。 MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-14T02:31:52Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Bootstrapped Model Predictive Control [19.652808098339644]
本稿では,ブートストラップ方式でポリシー学習を行う新しいアルゴリズムであるBootstrapped Model Predictive Control(BMPC)を紹介する。 BMPCは、MPCの専門家を模倣してネットワークポリシーを学び、その結果、MPCプロセスのガイドにこのポリシーを使用する。本手法は,各種連続制御タスクの先行作業よりも優れた性能を実現する。
論文参考訳（メタデータ） (2025-03-24T16:46:36Z)
Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文参考訳（メタデータ） (2024-04-08T20:02:19Z)
An Automatic Tuning MPC with Application to Ecological Cruise Control [0.0]
本稿では,MPCコントローラのオンライン自動チューニングへのアプローチと,エコロジークルーズ制御システムへの例を示す。我々は、動的プログラミングを用いて、グローバルな燃費最小化問題をオフラインで解決し、対応するMPCコスト関数を求める。これらのオフライン結果に適合したニューラルネットワークを用いて、オンライン操作中に所望のMPCコスト関数重みを生成する。
論文参考訳（メタデータ） (2023-09-17T19:49:47Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文参考訳（メタデータ） (2022-10-17T16:06:06Z)
Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文参考訳（メタデータ） (2022-09-22T12:40:21Z)
Sequential Information Design: Markov Persuasion Process and Its Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。 MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文参考訳（メタデータ） (2022-02-22T05:41:43Z)
Tailored neural networks for learning optimal value functions in MPC [0.0]
学習ベースの予測制御は、最適化ベースのMPCに代わる有望な代替手段である。本稿では、線形 MPC に対して、最適値関数と Q-函数を表すために、同様の結果を与える。
論文参考訳（メタデータ） (2021-12-07T20:34:38Z)
Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文参考訳（メタデータ） (2021-11-03T08:02:48Z)
Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文参考訳（メタデータ） (2021-03-22T03:16:33Z)
Blending MPC & Value Function Approximation for Efficient Reinforcement Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文参考訳（メタデータ） (2020-12-10T11:32:01Z)
Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文参考訳（メタデータ） (2020-02-08T02:27:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。