論文の概要: Learning to Satisfy Unknown Constraints in Iterative MPC
- arxiv url: http://arxiv.org/abs/2006.05054v2
- Date: Wed, 9 Sep 2020 18:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:40:02.141307
- Title: Learning to Satisfy Unknown Constraints in Iterative MPC
- Title(参考訳): 反復的mpcにおける未知の制約を満たすための学習
- Authors: Monimoy Bujarbaruah, Charlott Vallon, Francesco Borrelli
- Abstract要約: 本稿では,未知の多面体状態制約を満たすために繰り返し学習する線形時間不変系の制御設計法を提案する。
繰り返しタスクの各イテレーションにおいて、収集された閉ループ軌跡データを用いて未知の環境制約を推定する。
MPCコントローラは、推定された制約セットを確実に満たすように設計されている。
- 参考スコア(独自算出の注目度): 3.306595429364865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a control design method for linear time-invariant systems that
iteratively learns to satisfy unknown polyhedral state constraints. At each
iteration of a repetitive task, the method constructs an estimate of the
unknown environment constraints using collected closed-loop trajectory data.
This estimated constraint set is improved iteratively upon collection of
additional data. An MPC controller is then designed to robustly satisfy the
estimated constraint set. This paper presents the details of the proposed
approach, and provides robust and probabilistic guarantees of constraint
satisfaction as a function of the number of executed task iterations. We
demonstrate the safety of the proposed framework and explore the safety vs.
performance trade-off in a detailed numerical example.
- Abstract(参考訳): 未知多面体状態制約を満たすために反復的に学習する線形時間不変系の制御設計法を提案する。
繰り返しタスクの各イテレーションにおいて、収集された閉ループ軌跡データを用いて未知の環境制約を推定する。
この推定制約セットは、追加データの収集によって反復的に改善される。
MPCコントローラは、推定された制約セットを確実に満たすように設計されている。
本稿では,提案手法の詳細を述べるとともに,実行タスクの反復回数の関数として制約満足度を頑健かつ確率論的に保証する。
提案フレームワークの安全性を実証し,その安全性と性能のトレードオフを詳細な数値例で検証する。
関連論文リスト
- Online Constraint Tightening in Stochastic Model Predictive Control: A
Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。
制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。
提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文 参考訳(メタデータ) (2023-10-04T16:22:02Z) - Dual Formulation for Chance Constrained Stochastic Shortest Path with
Application to Autonomous Vehicle Behavior Planning [3.655021726150368]
制約最短経路問題(Constrained Shortest Path problem, C-SSP)は、特定の種類の運用制約下での環境における計画の定式化である。
この研究の最初の貢献は、Chance-Constrained Policyの正確な整数線型定式化である。
第三に、CC-SSP形式は、複数の時間ステップにまたがる制約を考慮するために一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-02-25T16:40:00Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Reinforcement Learning for Task Specifications with Action-Constraints [4.046919218061427]
有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。
安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。
非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
論文 参考訳(メタデータ) (2022-01-02T04:22:01Z) - Controllable Summarization with Constrained Markov Decision Process [50.04321779376415]
本研究では,ユーザが特定の属性を制御できる可制御テキスト要約について検討する。
制約付きマルコフ決定プロセス(CMDP)に基づく新しいトレーニングフレームワークを提案する。
我々のフレームワークは、長さ、被覆された実体、抽象性など、要約の重要な属性を制御するために応用できる。
論文 参考訳(メタデータ) (2021-08-07T09:12:53Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Online Learning Based Risk-Averse Stochastic MPC of Constrained Linear
Uncertain Systems [0.0]
本稿では, 線形時間不変系のデータ駆動型モデル予測制御(MPC)の設計問題について検討する。
本研究では,条件付きバリュー・アット・リスク(CVaR)制約があいまいさ集合と呼ばれる分布の族を拘束するために必要となる,オンライン学習に基づくリスク変動型MPCフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-20T13:00:28Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。