論文の概要: Intelligent Control of Spacecraft Reaction Wheel Attitude Using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.08366v1
- Date: Fri, 11 Jul 2025 07:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.274441
- Title: Intelligent Control of Spacecraft Reaction Wheel Attitude Using Deep Reinforcement Learning
- Title(参考訳): 深部強化学習を用いた宇宙機反応車輪姿勢の知的制御
- Authors: Ghaith El-Dalahmeh, Mohammad Reza Jabbarpour, Bao Quoc Vo, Ryszard Kowalczyk,
- Abstract要約: 本研究では,衛星の弾力性と耐故障性の向上を目的としたDRL制御手法を提案する。
実験結果から,TD3-HDは姿勢誤差を著しく低減し,角速度制御が向上し,断層条件下での安定性が向上した。
- 参考スコア(独自算出の注目度): 3.2666647437577114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable satellite attitude control is essential for the success of space missions, particularly as satellites increasingly operate autonomously in dynamic and uncertain environments. Reaction wheels (RWs) play a pivotal role in attitude control, and maintaining control resilience during RW faults is critical to preserving mission objectives and system stability. However, traditional Proportional Derivative (PD) controllers and existing deep reinforcement learning (DRL) algorithms such as TD3, PPO, and A2C often fall short in providing the real time adaptability and fault tolerance required for autonomous satellite operations. This study introduces a DRL-based control strategy designed to improve satellite resilience and adaptability under fault conditions. Specifically, the proposed method integrates Twin Delayed Deep Deterministic Policy Gradient (TD3) with Hindsight Experience Replay (HER) and Dimension Wise Clipping (DWC) referred to as TD3-HD to enhance learning in sparse reward environments and maintain satellite stability during RW failures. The proposed approach is benchmarked against PD control and leading DRL algorithms. Experimental results show that TD3-HD achieves significantly lower attitude error, improved angular velocity regulation, and enhanced stability under fault conditions. These findings underscore the proposed method potential as a powerful, fault tolerant, onboard AI solution for autonomous satellite attitude control.
- Abstract(参考訳): 信頼性の高い衛星姿勢制御は、特に衛星が動的で不確実な環境で自律的に活動するにつれて、宇宙ミッションの成功に不可欠である。
反応ホイール(RW)は姿勢制御において重要な役割を担い、RW故障時の制御レジリエンスの維持はミッション目標とシステム安定性の維持に不可欠である。
しかし、従来の Proportional Derivative (PD) コントローラや、TD3、PPO、A2Cといった既存のDeep reinforcement Learning (DRL) アルゴリズムは、自律的な衛星運用に必要なリアルタイム適応性と耐故障性を提供するには不十分であることが多い。
本研究では,衛星の弾力性と耐故障性の向上を目的としたDRL制御手法を提案する。
具体的には、TD3-HDと呼ばれるHER(Hindsight Experience Replay)とDWC(Dimension Wise Clipping)とTD3-HD(Dimension Wise Clipping)を統合し、スパース報酬環境における学習を促進し、RW故障時の衛星の安定性を維持する。
提案手法は、PD制御とDRLアルゴリズムの先行に対してベンチマークされる。
実験結果から,TD3-HDは姿勢誤差を著しく低減し,角速度制御が向上し,断層条件下での安定性が向上した。
これらの知見は、自律的な衛星姿勢制御のための強力なフォールトトレラントなAIソリューションとして提案された手法の可能性を強調している。
関連論文リスト
- Deep reinforcement learning-based longitudinal control strategy for automated vehicles at signalised intersections [2.9398787168955116]
本研究では,信号交差点における深部強化学習に基づく縦方向車両制御戦略を提案する。
総合的な報酬関数は、特に距離方向に基づく効率報酬に焦点を当てて定式化されている。
DDPG(Deep Deterministic Policy Gradient)とSAC(Soft-Actor Critic)という2つのDRLアルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2025-05-13T18:38:42Z) - Motion Control in Multi-Rotor Aerial Robots Using Deep Reinforcement Learning [0.0]
本稿では, 付加製造用ドローンの動作制御問題への深層強化学習の適用について検討する。
本稿では,AMタスクにおけるウェイポイントナビゲーションを行うマルチロータドローンの適応制御ポリシーを学習するDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-09T19:00:16Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - Distributed Neurodynamics-Based Backstepping Optimal Control for Robust
Constrained Consensus of Underactuated Underwater Vehicles Fleet [16.17376845767656]
本稿では,新しいコンセンサスに基づく最適コーディネーションプロトコルとロバストコントローラを開発する。
UUVの艦隊の最適な編成追跡が達成され、制約が満たされる。
全体的なUUVの形成システムの安定性は、UUVのすべての状態が、未知の乱れの存在下で一様に束縛されていることを保証するために確立されている。
論文 参考訳(メタデータ) (2023-08-18T06:04:12Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Actor-Critic Reinforcement Learning for Control with Stability Guarantee [9.400585561458712]
強化学習(RL)と深層学習の統合は、様々なロボット制御タスクにおいて印象的なパフォーマンスを達成した。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T16:14:30Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。