Fugu-MT 論文翻訳(概要): Deep $\mathcal{L}^1$ Stochastic Optimal Control Policies for Planetary Soft-landing

論文の概要: Deep $\mathcal{L}^1$ Stochastic Optimal Control Policies for Planetary Soft-landing

arxiv url: http://arxiv.org/abs/2109.00183v1
Date: Wed, 1 Sep 2021 04:28:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-02 14:28:37.643774
Title: Deep $\mathcal{L}^1$ Stochastic Optimal Control Policies for Planetary Soft-landing
Title（参考訳）: Deep $\mathcal{L}^1$ Stochastic Optimal Control Policies for Planetary Soft-landing
Authors: Marcus A. Pereira, Camilo A. Duarte, Ioannis Exarchos, and Evangelos A. Theodorou
Abstract要約: 本稿では,PDG(Powered-Descent Guidance)問題に対する新たなディープラーニングベースのソリューションを提案する。我々のSOCは、最小限の燃料消費のために予め規定された$mathcalL1制約を実質的に扱える。制御器は燃料消費を最小限に抑えつつ、逆円錐の底部に全軌道を安全に着陸させることができることを実証した。
参考スコア（独自算出の注目度）: 9.714390258486569
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we introduce a novel deep learning based solution to the Powered-Descent Guidance (PDG) problem, grounded in principles of nonlinear Stochastic Optimal Control (SOC) and Feynman-Kac theory. Our algorithm solves the PDG problem by framing it as an $\mathcal{L}^1$ SOC problem for minimum fuel consumption. Additionally, it can handle practically useful control constraints, nonlinear dynamics and enforces state constraints as soft-constraints. This is achieved by building off of recent work on deep Forward-Backward Stochastic Differential Equations (FBSDEs) and differentiable non-convex optimization neural-network layers based on stochastic search. In contrast to previous approaches, our algorithm does not require convexification of the constraints or linearization of the dynamics and is empirically shown to be robust to stochastic disturbances and the initial position of the spacecraft. After training offline, our controller can be activated once the spacecraft is within a pre-specified radius of the landing zone and at a pre-specified altitude i.e., the base of an inverted cone with the tip at the landing zone. We demonstrate empirically that our controller can successfully and safely land all trajectories initialized at the base of this cone while minimizing fuel consumption.
Abstract（参考訳）: 本稿では,非線形確率最適制御(SOC)とファインマン・カック理論の原理を基礎とした,パワード・ダイスン・ガイダンス(PDG)問題に対する新しいディープラーニングに基づく解を提案する。提案アルゴリズムは, 最小燃料消費に対する$\mathcal{L}^1$ SOC問題としてフレーミングすることで, PDG問題を解く。さらに、実際に有用な制御制約、非線形ダイナミクスを処理し、ソフトコンストラクションとして状態制約を強制することができる。これは、近年のDeep Forward-Backward Stochastic Differential Equations (FBSDEs) と、確率探索に基づく微分可能な非凸最適化ニューラルネットワーク層の構築によって実現されている。従来の手法とは対照的に,我々のアルゴリズムは力学の制約の凸化や線形化を必要とせず,確率的乱れや宇宙船の初期位置に頑健であることが実証的に示されている。オフラインでトレーニングした後、宇宙船がランディングゾーンの所定の半径内、すなわちランディングゾーンの先端を持つ反転円錐の基部が予め指定された高度内にある場合、コントローラを起動することができる。我々は,燃料消費を最小化しながら,この円錐の底部で初期化された全ての軌道を正常かつ安全に着陸できることを実証的に実証した。

関連論文リスト

Neural Policy Iteration for Stochastic Optimal Control: A Physics-Informed Approach [2.8988658640181826]
物理インフォームドニューラルネットワークポリシー反復フレームワーク(PINN-PI)を提案する。各イテレーションにおいて、ニューラルネットワークは、固定ポリシーによって誘導される線形PDEの残余を最小限にして、値関数を近似するように訓練される。提案手法は,最大10次元の勾配カートポール,振り子高次元線形二次規則(LQR)問題など,いくつかのベンチマーク問題に対する有効性を示す。
論文参考訳（メタデータ） (2025-08-03T11:02:25Z)
Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文参考訳（メタデータ） (2023-10-07T15:07:10Z)
Can Decentralized Stochastic Minimax Optimization Algorithms Converge Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-24T02:19:39Z)
Convex Optimization-based Policy Adaptation to Compensate for Distributional Shifts [0.991395455012393]
より優れたエラー性能と高速な計算時間で最適軌道を追跡するポリシーを学習できることが示される。本研究では,デュビンの車載モデルを用いた最適経路の追尾と,線形モデルと非線形モデルの両方を用いた衝突回避の有効性を示す。
論文参考訳（メタデータ） (2023-04-05T09:26:59Z)
CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-12T10:16:35Z)
Deep Learning Approximation of Diffeomorphisms via Linear-Control Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文参考訳（メタデータ） (2021-10-24T08:57:46Z)
Regret Analysis of Learning-Based MPC with Partially-Unknown Cost Function [5.601217969637838]
探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
論文参考訳（メタデータ） (2021-08-04T22:43:51Z)
Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文参考訳（メタデータ） (2021-06-22T23:14:21Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文参考訳（メタデータ） (2020-03-12T19:56:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。