Fugu-MT 論文翻訳(概要): Tailored neural networks for learning optimal value functions in MPC

論文の概要: Tailored neural networks for learning optimal value functions in MPC

arxiv url: http://arxiv.org/abs/2112.03975v1
Date: Tue, 7 Dec 2021 20:34:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-09 16:46:20.160325
Title: Tailored neural networks for learning optimal value functions in MPC
Title（参考訳）: MPCにおける最適値関数学習のためのテーラーニューラルネットワーク
Authors: Dieter Teichrib and Moritz Schulze Darup
Abstract要約: 学習ベースの予測制御は、最適化ベースのMPCに代わる有望な代替手段である。本稿では、線形 MPC に対して、最適値関数と Q-函数を表すために、同様の結果を与える。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Learning-based predictive control is a promising alternative to optimization-based MPC. However, efficiently learning the optimal control policy, the optimal value function, or the Q-function requires suitable function approximators. Often, artificial neural networks (ANN) are considered but choosing a suitable topology is also non-trivial. Against this background, it has recently been shown that tailored ANN allow, in principle, to exactly describe the optimal control policy in linear MPC by exploiting its piecewise affine structure. In this paper, we provide a similar result for representing the optimal value function and the Q-function that are both known to be piecewise quadratic for linear MPC.
Abstract（参考訳）: 学習に基づく予測制御は最適化ベースのmpcにとって有望な代替手段である。しかし、最適制御方針、最適値関数、あるいはq関数を効率的に学習するには、適切な関数近似子が必要である。しばしば人工ニューラルネットワーク(ANN)が検討されるが、適切なトポロジを選択することも容易ではない。このような背景から、ANNは原則として、その断片的なアフィン構造を利用して線形MPCの最適制御ポリシーを正確に記述できることを示した。本稿では,線形 mpc に対して分割二次であることが知られている最適値関数と q-関数を表す同様の結果を示す。

関連論文リスト

Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文参考訳（メタデータ） (2024-04-08T20:02:19Z)
On Building Myopic MPC Policies using Supervised Learning [0.0]
本稿では,教師付き学習を用いて最適値関数をオフラインで学習する代替戦略について考察する。これは、非常に短い予測地平線を持つミオピックMPCのコスト・ツー・ゴー関数として使用できる。
論文参考訳（メタデータ） (2024-01-23T08:08:09Z)
Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文参考訳（メタデータ） (2023-11-05T12:03:58Z)
Sample Efficient Model-free Reinforcement Learning from LTL Specifications with Optimality Guarantees [17.69385864791265]
未知のシステムに対して最適なポリシーを効率的に学習するモデルフリー強化学習(RL)手法を提案する。また、最適性を確保するために鍵パラメータの選択に関する理論的結果も改善した。
論文参考訳（メタデータ） (2023-05-02T12:57:05Z)
Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文参考訳（メタデータ） (2022-12-12T18:58:59Z)
Bridging the gap between QP-based and MPC-based RL [1.90365714903665]
擬似プログラム(QP)の形式を採り、最適化問題を用いてポリシーと値関数を近似する。汎用的非構造化QPは学習に高い柔軟性を提供する一方、MPCスキームの構造を持つQPは、その結果のポリシーの説明可能性を促進する。本稿では,提案手法の動作と結果の構造をポイントマスタスクを用いて記述する。
論文参考訳（メタデータ） (2022-05-18T10:41:18Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Neural Predictive Control for the Optimization of Smart Grid Flexibility Schedules [0.0]
モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。 MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御方式を提案する。
論文参考訳（メタデータ） (2021-08-19T15:12:35Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文参考訳（メタデータ） (2021-02-23T15:01:36Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Optimizing Wireless Systems Using Unsupervised and Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文参考訳（メタデータ） (2020-01-03T11:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。