論文の概要: A Goal-Oriented Reinforcement Learning-Based Path Planning Algorithm for Modular Self-Reconfigurable Satellites
- arxiv url: http://arxiv.org/abs/2505.01966v1
- Date: Sun, 04 May 2025 02:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.356773
- Title: A Goal-Oriented Reinforcement Learning-Based Path Planning Algorithm for Modular Self-Reconfigurable Satellites
- Title(参考訳): 目標指向型自己再構成型衛星の経路計画アルゴリズム
- Authors: Bofei Liu, Dong Ye, Zunhao Yao, Zhaowei Sun,
- Abstract要約: 本稿では、自己再構成可能な衛星の再構成のための目標指向強化学習に基づく経路計画アルゴリズムを提案する。
本モデルでは,4ユニットと6ユニットからなるモジュール型衛星群において,任意の目標設定を達成できる95%と73%の成功率を達成した。
- 参考スコア(独自算出の注目度): 0.5999777817331317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modular self-reconfigurable satellites refer to satellite clusters composed of individual modular units capable of altering their configurations. The configuration changes enable the execution of diverse tasks and mission objectives. Existing path planning algorithms for reconfiguration often suffer from high computational complexity, poor generalization capability, and limited support for diverse target configurations. To address these challenges, this paper proposes a goal-oriented reinforcement learning-based path planning algorithm. This algorithm is the first to address the challenge that previous reinforcement learning methods failed to overcome, namely handling multiple target configurations. Moreover, techniques such as Hindsight Experience Replay and Invalid Action Masking are incorporated to overcome the significant obstacles posed by sparse rewards and invalid actions. Based on these designs, our model achieves a 95% and 73% success rate in reaching arbitrary target configurations in a modular satellite cluster composed of four and six units, respectively.
- Abstract(参考訳): モジュール・セルフ・再構成可能な衛星(Modular self-reconfigurable satellite)は、個々のモジュール・ユニットで構成を変更できる衛星群を指す。
コンフィギュレーションの変更により、さまざまなタスクやミッション目標の実行が可能になる。
再構成のための既存の経路計画アルゴリズムは、しばしば高い計算複雑性、一般化能力の貧弱、多様な目標設定に対する限定的なサポートに悩まされる。
これらの課題に対処するため,本稿では,目標指向の強化学習に基づく経路計画アルゴリズムを提案する。
このアルゴリズムは、従来の強化学習手法が克服できなかった問題、すなわち複数のターゲット設定の処理に対処する最初のものである。
さらに、軽度の報酬や不正な行動によって引き起こされる重大な障害を克服するために、隠れ体験リプレイや不正行為マスキングなどのテクニックが組み込まれている。
これらの設計に基づいて,本モデルでは,4ユニットと6ユニットからなるモジュール衛星群において,任意の目標設定を達成できる95%と73%の成功率を達成した。
関連論文リスト
- Self-reconfiguration Strategies for Space-distributed Spacecraft [17.70060501010008]
本稿では、将来の宇宙船が軌道上で異なる機能を持つモジュールを組み立てられる分散軌道上の宇宙船組立アルゴリズムを提案する。
軌道上での軌道上での自己再構成アルゴリズムは、分散宇宙船の利点を実現する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-11-26T06:05:44Z) - A Distance Similarity-based Genetic Optimization Algorithm for Satellite Ground Network Planning Considering Feeding Mode [53.71516191515285]
衛星データ中継ミッションの送信効率の低さは、現在システムの構築を制約している問題となっている。
本研究では,タスク間の状態特性を考慮した距離類似性に基づく遺伝的最適化アルゴリズム(DSGA)を提案し,タスク間の類似性を決定するための重み付きユークリッド距離法を提案する。
論文 参考訳(メタデータ) (2024-08-29T06:57:45Z) - Weighted strategies to guide a multi-objective evolutionary algorithm
for multi-UAV mission planning [12.97430155510359]
この研究は、新しい個体の生成と突然変異のための重み付きランダム・ジェネレータを提案する。
この研究の主な目的は、マルチUAVミッション計画のためのMOEAソルバの収束率を下げることである。
論文 参考訳(メタデータ) (2024-02-28T23:05:27Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Deep Model Reassembly [60.6531819328247]
我々はDeep Model Reassembly(DeRy)と呼ばれる新しい知識伝達タスクを探索する。
DeRyの目標は、まず各モデルを固有のビルディングブロックに分割し、それから派生したブロックを選択的に再組み立てて、カスタマイズされたネットワークを生成することである。
ImageNetでは、最高の再組み立てモデルは微調整なしで78.6%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-10-24T10:16:13Z) - Hierarchical Reinforcement Learning Framework for Stochastic Spaceflight
Campaign Design [5.381116150823982]
本稿では,宇宙飛行計画のための階層的強化学習アーキテクチャを不確実性下で開発する。
本手法は,不確実な資源利用(ISRU)性能を有する,月面探査の一連のシナリオに適用する。
論文 参考訳(メタデータ) (2021-03-16T11:17:02Z) - Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot
Transfer [71.44215606325005]
本稿では,シーケンシャルなサブゴールタスクの超指数空間における解を高速に計算するための,Jump-Operator Dynamic Programmingという新しいフレームワークを提案する。
このアプローチでは、時間的に拡張された行動として機能する、再利用可能な目標条件付き警察のアンサンブルを制御する。
すると、この部分空間上の目的関数のクラスを、解がグラウンド化に不変であるものとして特定し、最適ゼロショット移動をもたらす。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。