論文の概要: Data-driven learning of feedback maps for explicit robust predictive control: an approximation theoretic view
- arxiv url: http://arxiv.org/abs/2510.13522v1
- Date: Wed, 15 Oct 2025 13:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.676809
- Title: Data-driven learning of feedback maps for explicit robust predictive control: an approximation theoretic view
- Title(参考訳): 強靭な予測制御のためのフィードバックマップのデータ駆動学習--近似理論の視点から
- Authors: Siddhartha Ganguly, Shubham Gupta, Debasish Chatterjee,
- Abstract要約: 頑健なモデル予測制御(MPC)問題に対して,データからフィードバックマップを学習するアルゴリズムを確立する。
我々は、既指定の均一なエラー境界内における厳密な近似を許容状態空間上で適用し、未知のフィードバックポリシーを学習する近似スキームを2つ採用する。
- 参考スコア(独自算出の注目度): 15.111522780173777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We establish an algorithm to learn feedback maps from data for a class of robust model predictive control (MPC) problems. The algorithm accounts for the approximation errors due to the learning directly at the synthesis stage, ensuring recursive feasibility by construction. The optimal control problem consists of a linear noisy dynamical system, a quadratic stage and quadratic terminal costs as the objective, and convex constraints on the state, control, and disturbance sequences; the control minimizes and the disturbance maximizes the objective. We proceed via two steps -- (a) Data generation: First, we reformulate the given minmax problem into a convex semi-infinite program and employ recently developed tools to solve it in an exact fashion on grid points of the state space to generate (state, action) data. (b) Learning approximate feedback maps: We employ a couple of approximation schemes that furnish tight approximations within preassigned uniform error bounds on the admissible state space to learn the unknown feedback policy. The stability of the closed-loop system under the approximate feedback policies is also guaranteed under a standard set of hypotheses. Two benchmark numerical examples are provided to illustrate the results.
- Abstract(参考訳): 頑健なモデル予測制御(MPC)問題に対して,データからフィードバックマップを学習するアルゴリズムを確立する。
このアルゴリズムは、合成段階での学習による近似誤差を考慮し、構築による再帰可能性を保証する。
最適制御問題は、線形雑音の力学系と、目的とする二次ステージと二次ターミナルコストと、状態、制御および乱れシーケンスに対する凸制約とから構成され、制御が最小化し、乱れが目的を最大化する。
2つのステップで進みます。
(a)データ生成:まず、与えられたminmax問題を凸半無限プログラムに再構成し、最近開発されたツールを用いて、状態空間のグリッドポイント上で正確に解決し、(状態、動作)データを生成する。
b) 近似フィードバックマップの学習: 既指定状態空間上の一様誤差境界内で厳密な近似を行う近似スキームを用いて、未知のフィードバックポリシーを学習する。
近似フィードバックポリシの下での閉ループシステムの安定性も、標準的な仮説の下で保証される。
結果を説明するために、2つのベンチマーク数値例が提供されている。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Deep Subspace Encoders for Nonlinear System Identification [0.0]
そこで本稿では,状態推定にトラッピング予測損失とサブスペースエンコーダを用いる手法を提案する。
軽度条件下では,提案手法は局所的に一貫性があり,最適化安定性が向上し,データ効率が向上することを示す。
論文 参考訳(メタデータ) (2022-10-26T16:04:38Z) - FORESEE: Prediction with Expansion-Compression Unscented Transform for
Online Policy Optimization [8.97438370260135]
本研究では,オンライン政策最適化問題のクラスを解くために,拡張圧縮アンセント変換(Expansion-Compression Unscented Transform)と呼ばれる状態予測手法を提案する。
提案アルゴリズムは状態依存分布を通じて有限個のシグマ点を伝播し,各段階におけるシグマ点数の増加を規定する。
その性能はモンテカルロに匹敵するが、計算コストははるかに低い。
論文 参考訳(メタデータ) (2022-09-26T12:47:08Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Primal-dual Learning for the Model-free Risk-constrained Linear
Quadratic Regulator [0.8629912408966145]
リスク対応コントロールは、予期せぬイベントに取り組むことを約束しながら、既知のダイナミックなモデルを必要とする。
本稿では,線形システムに着目したリスク対応制御系を学習するためのモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-22T04:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。