論文の概要: Neural Backward Reach-Avoid Tubes with MPC Supervision for High-Dimensional Systems: An Application to Safe Spacecraft Docking
- arxiv url: http://arxiv.org/abs/2605.02021v1
- Date: Sun, 03 May 2026 19:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.047654
- Title: Neural Backward Reach-Avoid Tubes with MPC Supervision for High-Dimensional Systems: An Application to Safe Spacecraft Docking
- Title(参考訳): 高次元システムのためのMPCスーパービジョンを用いたニューラルバックバックリーチ回避管:安全宇宙船ドッキングへの応用
- Authors: Santiago Thorup, Luca Castelletto, Zeyuan Feng, Somil Bansal,
- Abstract要約: ハミルトン・ヤコビ(HJ)の到達性は形式的なリーチ・アビド保証を提供するが、古典的解法は低次元システムに限られる。
本稿では,HJ構造とMPCに基づく監視を緊密に統合した学習型バックワードリーチ回避管(BRAT)フレームワークを提案する。
提案手法は,格子状地中真実に対する6次元平面ドッキング問題に対して評価し,完全な13Dシステムに拡張する。
- 参考スコア(独自算出の注目度): 6.387263468033964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous spacecraft docking requires control policies that simultaneously ensure collision avoidance and target reachability under coupled, high-dimensional translational-rotational dynamics. Hamilton-Jacobi (HJ) reachability provides formal reach-avoid guarantees, but classical solvers are limited to low-dimensional systems. Learning-based approaches have begun to scale HJ analysis, yet they struggle in reach-avoid settings, especially where goal and failure sets are tightly coupled, as in docking. We propose a learning-based Backward Reach-Avoid Tube (BRAT) framework that addresses this challenge by tightly integrating HJ structure with MPC-based supervision. In the offline phase, we train a neural approximation of the HJ value function using PDE-based losses augmented with curriculum-driven MPC supervision, which provides informative value targets and stabilizes training in regions where purely PDE-based methods fail. In the online phase, the learned value function is deployed through two real-time controllers: (i) a value gradient-driven controller, and (ii) a value-function-augmented terminal MPC that explicitly enforces reachability at the horizon. We evaluate the proposed method on a 6D planar docking problem against grid-based ground truth and then scale to the full 13D system. Across both settings, our approach outperforms existing methods in success rate and computational efficiency.
- Abstract(参考訳): 自律型宇宙船ドッキングは、衝突回避と高次元の翻訳回転力学の下での目標到達性を同時に確保する制御ポリシーを必要とする。
ハミルトン・ヤコビ(HJ)の到達性は形式的なリーチ・アビド保証を提供するが、古典的解法は低次元システムに限られる。
学習ベースのアプローチでは、HJ分析のスケールアップが始まっているが、特にドッキングのように、目標と障害セットが密結合されている場合において、到達不能な設定に苦労している。
本稿では,HJ構造とMPCに基づく監視を緊密に統合することにより,この課題に対処する学習ベースのバックワードリーチ回避管(BRAT)フレームワークを提案する。
オフラインフェーズでは,カリキュラム駆動型MPC監視によって強化されたPDEに基づく損失を用いて,HJ値関数のニューラル近似を訓練する。
オンラインフェーズでは、学習した値関数は2つのリアルタイムコントローラを介してデプロイされる。
(i)値勾配駆動制御装置、及び
(ii)水平線における到達性を明示的に強制する値関数拡張端末MPC。
提案手法は,格子状地中真実に対する6次元平面ドッキング問題に対して評価し,完全な13Dシステムに拡張する。
いずれの設定においても、我々の手法は成功率と計算効率において既存の手法よりも優れています。
関連論文リスト
- Robust Verification of Controllers under State Uncertainty via Hamilton-Jacobi Reachability Analysis [49.31947916567367]
Hamilton-Jacobi (J) リーチビリティ解析は、最悪の不確実性の下で最適なリーチビリティを計算できる一般的な非線形システムに対する一般的な形式的検証ツールである。
この作業は、HJローバーを介してRobust Verification Controllersのための、HJベースのリーチビリティベースのシステム検証フレームワークである。
本稿では,Ro-CoReの安全性検証とコントローラ設計のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-18T18:55:20Z) - Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning [20.424372965054832]
EmphPhysics-informed (Pi) regularized loss for value learning, derived from the Eikonal partial Differential Equation (PDE)。
トレーニングを安定させるために主に用いられる一般的な勾配のペナルティとは異なり、我々の定式化は連続時間最適制御に基礎を置いており、コスト対ゴ構造に整合する値関数を奨励している。
提案した正規化器は時間差に基づく値学習と広く互換性があり、既存のオフラインGCRLアルゴリズムに統合できる。
論文 参考訳(メタデータ) (2025-09-08T15:08:42Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - DeepReach: A Deep Learning Approach to High-Dimensional Reachability [6.604421202391151]
Hamilton-Jacobi (HJ) 到達可能性解析は動的制御系の性能と安全性を保証する重要な形式的検証手法である。
本稿では,高次元到達性問題に対するニューラルPDE解法であるDeepReachを提案する。
論文 参考訳(メタデータ) (2020-11-04T00:47:59Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。