Fugu-MT 論文翻訳(概要): Learning to Satisfy Unknown Constraints in Iterative MPC

論文の概要: Learning to Satisfy Unknown Constraints in Iterative MPC

arxiv url: http://arxiv.org/abs/2006.05054v2
Date: Wed, 9 Sep 2020 18:18:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 15:40:02.141307
Title: Learning to Satisfy Unknown Constraints in Iterative MPC
Title（参考訳）: 反復的mpcにおける未知の制約を満たすための学習
Authors: Monimoy Bujarbaruah, Charlott Vallon, Francesco Borrelli
Abstract要約: 本稿では,未知の多面体状態制約を満たすために繰り返し学習する線形時間不変系の制御設計法を提案する。繰り返しタスクの各イテレーションにおいて、収集された閉ループ軌跡データを用いて未知の環境制約を推定する。 MPCコントローラは、推定された制約セットを確実に満たすように設計されている。
参考スコア（独自算出の注目度）: 3.306595429364865
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a control design method for linear time-invariant systems that iteratively learns to satisfy unknown polyhedral state constraints. At each iteration of a repetitive task, the method constructs an estimate of the unknown environment constraints using collected closed-loop trajectory data. This estimated constraint set is improved iteratively upon collection of additional data. An MPC controller is then designed to robustly satisfy the estimated constraint set. This paper presents the details of the proposed approach, and provides robust and probabilistic guarantees of constraint satisfaction as a function of the number of executed task iterations. We demonstrate the safety of the proposed framework and explore the safety vs. performance trade-off in a detailed numerical example.
Abstract（参考訳）: 未知多面体状態制約を満たすために反復的に学習する線形時間不変系の制御設計法を提案する。繰り返しタスクの各イテレーションにおいて、収集された閉ループ軌跡データを用いて未知の環境制約を推定する。この推定制約セットは、追加データの収集によって反復的に改善される。 MPCコントローラは、推定された制約セットを確実に満たすように設計されている。本稿では,提案手法の詳細を述べるとともに,実行タスクの反復回数の関数として制約満足度を頑健かつ確率論的に保証する。提案フレームワークの安全性を実証し,その安全性と性能のトレードオフを詳細な数値例で検証する。

関連論文リスト

Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:48Z)
Constrained Linear Thompson Sampling [39.724313550777715]
本研究では, エージェントが凸領域からのアクションを逐次選択し, 未知の目的を最大化する安全線形バンドイット問題について検討する。既存のアプローチは、頻繁な信頼境界を持つ楽観主義に基づく手法に依存しており、しばしば計算的に高価な行動選択ルーチンに繋がる。我々は,後悔の最小化と制約満足度を効率的にバランスするサンプリングベースのフレームワークであるCOLTS(Constrained Linear Thompson Sampling)を提案する。
論文参考訳（メタデータ） (2025-03-03T20:44:58Z)
Statistical learning for constrained functional parameters in infinite-dimensional models [4.974815773537217]
無限次元統計モデルにおける等式制約や不等式制約の下で関数値パラメータを推定する枠組みを開発する。我々は,ラグランジュ型定式化を用いたペナル化集団リスクの最小化法として,この解を特徴付けている。提案手法の柔軟性と有効性について,様々な例,シミュレーション,実データを用いて実証する。
論文参考訳（メタデータ） (2024-04-15T14:59:21Z)
Online Constraint Tightening in Stochastic Model Predictive Control: A Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文参考訳（メタデータ） (2023-10-04T16:22:02Z)
Dual Formulation for Chance Constrained Stochastic Shortest Path with Application to Autonomous Vehicle Behavior Planning [3.655021726150368]
制約最短経路問題(Constrained Shortest Path problem, C-SSP)は、特定の種類の運用制約下での環境における計画の定式化である。この研究の最初の貢献は、Chance-Constrained Policyの正確な整数線型定式化である。第三に、CC-SSP形式は、複数の時間ステップにまたがる制約を考慮するために一般化可能であることを示す。
論文参考訳（メタデータ） (2023-02-25T16:40:00Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Reinforcement Learning for Task Specifications with Action-Constraints [4.046919218061427]
有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
論文参考訳（メタデータ） (2022-01-02T04:22:01Z)
Controllable Summarization with Constrained Markov Decision Process [50.04321779376415]
本研究では,ユーザが特定の属性を制御できる可制御テキスト要約について検討する。制約付きマルコフ決定プロセス(CMDP)に基づく新しいトレーニングフレームワークを提案する。我々のフレームワークは、長さ、被覆された実体、抽象性など、要約の重要な属性を制御するために応用できる。
論文参考訳（メタデータ） (2021-08-07T09:12:53Z)
Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文参考訳（メタデータ） (2021-07-13T21:39:21Z)
Online Learning Based Risk-Averse Stochastic MPC of Constrained Linear Uncertain Systems [0.0]
本稿では, 線形時間不変系のデータ駆動型モデル予測制御(MPC)の設計問題について検討する。本研究では,条件付きバリュー・アット・リスク(CVaR)制約があいまいさ集合と呼ばれる分布の族を拘束するために必要となる,オンライン学習に基づくリスク変動型MPCフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-20T13:00:28Z)
Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-16T13:16:22Z)
Learning with Safety Constraints: Sample Complexity of Reinforcement Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文参考訳（メタデータ） (2020-08-01T18:17:08Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。