論文の概要: MPC-Guided Safe Reinforcement Learning and Lipschitz-Based Filtering for Structured Nonlinear Systems
- arxiv url: http://arxiv.org/abs/2512.12855v1
- Date: Sun, 14 Dec 2025 21:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.341223
- Title: MPC-Guided Safe Reinforcement Learning and Lipschitz-Based Filtering for Structured Nonlinear Systems
- Title(参考訳): MPC-Guided Safe Reinforcement Learning and Lipschitz-Based Filtering for Structured Non Systems (特集:一般セッション)
- Authors: Patrick Kostelac, Xuerui Wang, Anahita Jamshidnejad,
- Abstract要約: 現代のエンジニアリングシステムには、不確実性に堅牢で、環境の変化に適応し、リアルタイムな制約の下で安全を意識するコントローラが必要である。
本稿では,MPCの安定性と安全性の保証とRLの適用性を組み合わせた統合型MPC-RLフレームワークを提案する。
この手法は非線形空気弾性翼システムで検証され、改良された拒絶障害、アクチュエータの労力の低減、乱流下での堅牢な性能を示す。
- 参考スコア(独自算出の注目度): 4.161086842063149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern engineering systems, such as autonomous vehicles, flexible robotics, and intelligent aerospace platforms, require controllers that are robust to uncertainties, adaptive to environmental changes, and safety-aware under real-time constraints. RL offers powerful data-driven adaptability for systems with nonlinear dynamics that interact with uncertain environments. RL, however, lacks built-in mechanisms for dynamic constraint satisfaction during exploration. MPC offers structured constraint handling and robustness, but its reliance on accurate models and computationally demanding online optimization may pose significant challenges. This paper proposes an integrated MPC-RL framework that combines stability and safety guarantees of MPC with the adaptability of RL. During training, MPC defines safe control bounds that guide the RL component and that enable constraint-aware policy learning. At deployment, the learned policy operates in real time with a lightweight safety filter based on Lipschitz continuity to ensure constraint satisfaction without heavy online optimizations. The approach, which is validated on a nonlinear aeroelastic wing system, demonstrates improved disturbance rejection, reduced actuator effort, and robust performance under turbulence. The architecture generalizes to other domains with structured nonlinearities and bounded disturbances, offering a scalable solution for safe artificial-intelligence-driven control in engineering applications.
- Abstract(参考訳): 自律走行車、フレキシブルロボティクス、インテリジェントな航空宇宙プラットフォームといった現代の工学システムには、不確実性に堅牢で、環境の変化に適応し、リアルタイムな制約下での安全を意識するコントローラが必要である。
RLは不確実な環境と相互作用する非線形力学を持つシステムに対して、強力なデータ駆動型適応性を提供する。
しかし、RLは探索中の動的制約満足度のための内蔵機構を欠いている。
MPCは構造化された制約処理とロバスト性を提供するが、正確なモデルに依存し、オンライン最適化を計算的に要求することは大きな課題となる。
本稿では,MPCの安定性と安全性の保証とRLの適用性を組み合わせた統合型MPC-RLフレームワークを提案する。
トレーニング中、MPCは、RLコンポーネントをガイドし、制約を意識したポリシー学習を可能にする安全な制御境界を定義する。
デプロイ時に学習したポリシは、Lipschitz連続性に基づいた軽量な安全フィルタでリアルタイムに動作し、重いオンライン最適化なしに制約満足度を保証する。
この手法は非線形空気弾性翼システムで検証され, 外乱の低減, アクチュエータの強化, 乱流下での強靭な性能を示す。
このアーキテクチャは、構造化された非線形性と有界な外乱を持つ他のドメインに一般化され、エンジニアリングアプリケーションにおける安全な人工知能駆動制御のためのスケーラブルなソリューションを提供する。
関連論文リスト
- Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Custom Non-Linear Model Predictive Control for Obstacle Avoidance in Indoor and Outdoor Environments [0.0]
本稿では,DJI行列100のための非線形モデル予測制御(NMPC)フレームワークを提案する。
このフレームワークは様々なトラジェクトリタイプをサポートし、厳密な操作の精度を制御するためにペナルティベースのコスト関数を採用している。
論文 参考訳(メタデータ) (2024-10-03T17:50:19Z) - Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。