論文の概要: Deep Bayesian Reinforcement Learning for Spacecraft Proximity Maneuvers and Docking
- arxiv url: http://arxiv.org/abs/2311.03680v2
- Date: Wed, 22 May 2024 02:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:23:38.013508
- Title: Deep Bayesian Reinforcement Learning for Spacecraft Proximity Maneuvers and Docking
- Title(参考訳): 宇宙機近接機とドッキングのための深ベイズ強化学習
- Authors: Desong Du, Naiming Qi, Yanfang Liu, Wei Pan,
- Abstract要約: 本研究では,ベイズアクター批判型強化学習アルゴリズムを導入し,安定度を保証した制御ポリシーを学習する。
提案アルゴリズムは, 宇宙機搭載テストベッドで実験的に評価され, 目覚ましい性能と有望な性能を示す。
- 参考スコア(独自算出の注目度): 4.9653656404010205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the pursuit of autonomous spacecraft proximity maneuvers and docking(PMD), we introduce a novel Bayesian actor-critic reinforcement learning algorithm to learn a control policy with the stability guarantee. The PMD task is formulated as a Markov decision process that reflects the relative dynamic model, the docking cone and the cost function. Drawing from the principles of Lyapunov theory, we frame the temporal difference learning as a constrained Gaussian process regression problem. This innovative approach allows the state-value function to be expressed as a Lyapunov function, leveraging the Gaussian process and deep kernel learning. We develop a novel Bayesian quadrature policy optimization procedure to analytically compute the policy gradient while integrating Lyapunov-based stability constraints. This integration is pivotal in satisfying the rigorous safety demands of spaceflight missions. The proposed algorithm has been experimentally evaluated on a spacecraft air-bearing testbed and shows impressive and promising performance.
- Abstract(参考訳): 自律型宇宙船の近接操作とドッキング(PMD)の追求において,安定性を保証する制御ポリシーを学習するための新しいベイズアクター批判強化学習アルゴリズムを導入する。
PMDタスクは、相対力学モデル、ドッキングコーン、コスト関数を反映したマルコフ決定プロセスとして定式化される。
リアプノフ理論の原理から、時間差分学習を制約付きガウス過程回帰問題として構成する。
この革新的なアプローチは、状態値関数をリアプノフ関数として表現し、ガウス過程と深層カーネル学習を活用する。
我々は、リャプノフに基づく安定性制約を統合しつつ、ポリシー勾配を解析的に計算する新しいベイズ二次政策最適化手法を開発した。
この統合は、宇宙飛行ミッションの厳格な安全要求を満たす上で重要である。
提案アルゴリズムは, 宇宙機搭載テストベッドで実験的に評価され, 目覚ましい性能と有望な性能を示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Neural Lyapunov Differentiable Predictive Control [2.042924346801313]
本稿では、確率的リアプノフに基づく安定性保証を備えた微分可能なプログラミングフレームワークを用いた学習に基づく予測制御手法を提案する。
この手法は、安定な力学で状態空間の領域を認証するリアプノフ関数を共同で学習する。
論文 参考訳(メタデータ) (2022-05-22T03:52:27Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Gaussian Process Policy Optimization [0.0]
本稿では,アクターに批判的かつモデルなしの強化学習アルゴリズムを提案する。
ベイズ的パラメータ空間探索法を用いて環境を解く。
ロボットの移動をシミュレートする環境において、現在のアルゴリズムよりも経験的に優れていることが示されています。
論文 参考訳(メタデータ) (2020-03-02T18:06:27Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。