論文の概要: MPC-based Deep Reinforcement Learning Method for Space Robotic Control with Fuel Sloshing Mitigation
- arxiv url: http://arxiv.org/abs/2509.21045v1
- Date: Thu, 25 Sep 2025 11:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.880458
- Title: MPC-based Deep Reinforcement Learning Method for Space Robotic Control with Fuel Sloshing Mitigation
- Title(参考訳): 燃料スロッシングによる宇宙ロボット制御のためのMPCに基づく深部強化学習法
- Authors: Mahya Ramezani, M. Amin Alandihallaj, Barış Can Yalçın, Miguel Angel Olivares Mendez, Holger Voos,
- Abstract要約: 本稿では、部分的に充填された燃料タンクを用いた自律衛星ドッキングのための強化学習(RL)とモデル予測制御(MPC)フレームワークを提案する。
そこで我々は,PPOアルゴリズムとSACアルゴリズムをMPCと統合し,MPCの予測能力を活用してRLトレーニングを加速し,制御の堅牢性を向上させる。
本研究は, 燃料効率と耐障害性のある衛星ドッキングを推し進め, 軌道上再給油・給油ミッションの実現可能性を高めた。
- 参考スコア(独自算出の注目度): 2.2423135771458194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an integrated Reinforcement Learning (RL) and Model Predictive Control (MPC) framework for autonomous satellite docking with a partially filled fuel tank. Traditional docking control faces challenges due to fuel sloshing in microgravity, which induces unpredictable forces affecting stability. To address this, we integrate Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC) RL algorithms with MPC, leveraging MPC's predictive capabilities to accelerate RL training and improve control robustness. The proposed approach is validated through Zero-G Lab of SnT experiments for planar stabilization and high-fidelity numerical simulations for 6-DOF docking with fuel sloshing dynamics. Simulation results demonstrate that SAC-MPC achieves superior docking accuracy, higher success rates, and lower control effort, outperforming standalone RL and PPO-MPC methods. This study advances fuel-efficient and disturbance-resilient satellite docking, enhancing the feasibility of on-orbit refueling and servicing missions.
- Abstract(参考訳): 本稿では、部分的に充填された燃料タンクを用いた自律衛星ドッキングのための強化学習(RL)とモデル予測制御(MPC)フレームワークを提案する。
従来のドッキング制御は、微小重力下で燃料がスロッシングされ、安定に影響を及ぼす予測不可能な力を引き起こすため、課題に直面している。
そこで我々は,PPO(Proximal Policy Optimization)とSAC(Soft Actor-Critic)のRLアルゴリズムをMPCと統合し,MPCの予測能力を活用してRLトレーニングの高速化と制御ロバスト性の向上を図る。
提案手法は,SnT実験のZero-G Labを用いて,燃料スロッシング力学を用いた6-DOFドッキングの平面安定化と高忠実度数値シミュレーションを行った。
シミュレーションの結果, SAC-MPCはドッキング精度が向上し, 高い成功率, 制御効率が向上し, スタンドアロンのRL法やPPO-MPC法よりも優れていた。
本研究は, 燃料効率と耐障害性のある衛星ドッキングを推し進め, 軌道上再給油・給油ミッションの実現可能性を高めた。
関連論文リスト
- ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy [51.56484100374058]
ASTREAは、自律的な宇宙船運用のためにTRL 9に配備された最初のエージェントシステムである。
我々は,資源制約付き大規模言語モデル(LLM)エージェントと強化学習コントローラを,空間対応プラットフォームに適した非同期アーキテクチャに統合する。
論文 参考訳(メタデータ) (2025-09-16T08:52:13Z) - Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach [0.686108371431346]
無人航空機(UAV)は有望な代替手段を提供するが、GPS搭載の環境は衝突を防ぐために堅牢な制御ポリシーを必要とする。
本稿では,この課題に対する2つの主要なDRLアルゴリズムの比較研究を行う。
本訓練は,ジェネシスシミュレーション環境における手続き的に発生するダクト環境を用いて行った。
論文 参考訳(メタデータ) (2025-08-22T21:29:59Z) - Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。
標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。
MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T02:31:52Z) - Neural-based Control for CubeSat Docking Maneuvers [0.0]
本稿では、強化学習(RL)によって訓練されたニューラルネットワーク(ANN)を用いた革新的なアプローチを提案する。
提案した戦略は実装が容易であり、経験から制御ポリシーを学習することで、高速な適応性と障害に対する堅牢性を提供する。
本研究は、宇宙機RVDの適応性と効率の確保におけるRLの有効性を強調し、今後のミッションへの期待について考察した。
論文 参考訳(メタデータ) (2024-10-16T16:05:46Z) - Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning [19.87058922821708]
本稿では,RLを用いた高忠実度ロケットモデルにおいて,ベースライン制御による8%から97%までのロケット着陸制御の成功率を著しく向上させる。
我々のアプローチはRandom Annealing Jump Start (RAJS)と呼ばれ、RLにおける環境探索と政策学習を促進するためのガイドポリシーとして、事前のフィードバックコントローラを活用することで、現実の目標志向の問題に合わせたものである。
論文 参考訳(メタデータ) (2024-07-21T07:47:53Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。