論文の概要: Recursively Feasible Shrinking-Horizon MPC in Dynamic Environments with Conformal Prediction Guarantees
- arxiv url: http://arxiv.org/abs/2405.10875v1
- Date: Fri, 17 May 2024 16:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 15:43:48.209658
- Title: Recursively Feasible Shrinking-Horizon MPC in Dynamic Environments with Conformal Prediction Guarantees
- Title(参考訳): 等角予測保証付き動的環境における再帰的に実現可能な収縮水平MPC
- Authors: Charis Stamouli, Lars Lindemann, George J. Pappas,
- Abstract要約: 我々は、ミッション中に制御不能なエージェントと相互作用する決定論的自律システムを制御することを検討する。
既存の作業は、未知のエージェントに対して高い信頼度予測領域を導出し、これらの領域をMPCに適した安全制約の設計に統合する。
我々は,新たな予測領域がオンライン化されるにつれて,安全制約の段階的緩和を通じて再帰的実現性を保証する縮小水平MPCを提案する。
- 参考スコア(独自算出の注目度): 23.32696414512787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the problem of shrinking-horizon Model Predictive Control (MPC) in uncertain dynamic environments. We consider controlling a deterministic autonomous system that interacts with uncontrollable stochastic agents during its mission. Employing tools from conformal prediction, existing works derive high-confidence prediction regions for the unknown agent trajectories, and integrate these regions in the design of suitable safety constraints for MPC. Despite guaranteeing probabilistic safety of the closed-loop trajectories, these constraints do not ensure feasibility of the respective MPC schemes for the entire duration of the mission. We propose a shrinking-horizon MPC that guarantees recursive feasibility via a gradual relaxation of the safety constraints as new prediction regions become available online. This relaxation enforces the safety constraints to hold over the least restrictive prediction region from the set of all available prediction regions. In a comparative case study with the state of the art, we empirically show that our approach results in tighter prediction regions and verify recursive feasibility of our MPC scheme.
- Abstract(参考訳): 本稿では,不確実な動的環境におけるモデル予測制御(MPC)の縮小問題に焦点をあてる。
我々は、そのミッション中に制御不能な確率的エージェントと相互作用する決定論的自律システムを制御することを検討する。
コンフォーマルな予測からツールを活用することで、既存の作業は未知のエージェント軌道に対する高い信頼度予測領域を導き出し、これらの領域をMPCに適した安全制約の設計に統合する。
閉ループ軌道の確率論的安全性は保証されているが、これらの制約はミッション全体における各MPCスキームの実現性を保証するものではない。
我々は,新たな予測領域がオンライン化されるにつれて,安全制約の段階的緩和を通じて再帰的実現性を保証する縮小水平MPCを提案する。
この緩和は、利用可能な全ての予測領域の集合から、最小限の制限された予測領域を保持する安全制約を強制する。
最先端技術との比較ケーススタディでは,提案手法がより厳密な予測領域をもたらし,MPC方式の再帰可能性を検証することを実証的に示している。
関連論文リスト
- ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自然言語生成(NLG)タスクの不確実性定量化は、依然としてオープンな課題である。
本研究では、不確実性の指標を厳密な理論的保証に変換することができる適合型予測(CP)について検討する。
本稿では,自己整合性を利用したサンプリングに基づく不確実性評価手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Forking Uncertainties: Reliable Prediction and Model Predictive Control
with Sequence Models via Conformal Risk Control [40.918012779935246]
本稿では,事前設計した確率予測器が生成した予測に基づいて,信頼性の高いエラーバーを生成する,新しいポストホックキャリブレーション手法を提案する。
最先端技術とは異なり、PTS-CRCはカバレッジ以上の信頼性定義を満たすことができる。
PTS-CRC予測と制御の性能を,無線ネットワークの文脈における多くのユースケースの研究により実験的に検証した。
論文 参考訳(メタデータ) (2023-10-16T11:35:41Z) - Conformal Contextual Robust Optimization [21.2737854880866]
データ駆動による確率論的意思決定問題を予測するアプローチは、安全クリティカルな設定における不確実な領域の不確実性のリスクを軽減することを目指している。
本稿では,CPO(Conformal-Then-Predict)フレームワークを提案する。
確率列最適化による意思決定問題。
論文 参考訳(メタデータ) (2023-10-16T01:58:27Z) - Safety Margins for Reinforcement Learning [74.13100479426424]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Risk Aware Belief-dependent Constrained POMDP Planning [9.061408029414453]
リスク認識は、オンライン操作エージェントの基本である。
既存の制約付きPOMDPアルゴリズムは一般に離散状態と観測空間のために設計されている。
本稿では,リスク・逆信念に依存した制約付きPMDPの新たな定式化について述べる。
論文 参考訳(メタデータ) (2022-09-06T17:48:13Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。