論文の概要: Revisiting Space Mission Planning: A Reinforcement Learning-Guided Approach for Multi-Debris Rendezvous
- arxiv url: http://arxiv.org/abs/2409.16882v1
- Date: Wed, 25 Sep 2024 12:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 03:45:10.541838
- Title: Revisiting Space Mission Planning: A Reinforcement Learning-Guided Approach for Multi-Debris Rendezvous
- Title(参考訳): 宇宙ミッション計画の見直し:多自由度レンデブーのための強化学習型アプローチ
- Authors: Agni Bandyopadhyay, Guenther Waxenegger-Wilfing,
- Abstract要約: 目的は、与えられたすべての破片を訪問して、ミッション全体のランデブーを最小限に抑えるシーケンスを最適化することである。
ニューラルネットワーク(NN)ポリシーが開発され、さまざまなデブリフィールドを持つシミュレーションされた宇宙ミッションで訓練される。
強化学習アプローチは計画効率を著しく向上させる。
- 参考スコア(独自算出の注目度): 15.699822139827916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research introduces a novel application of a masked Proximal Policy Optimization (PPO) algorithm from the field of deep reinforcement learning (RL), for determining the most efficient sequence of space debris visitation, utilizing the Lambert solver as per Izzo's adaptation for individual rendezvous. The aim is to optimize the sequence in which all the given debris should be visited to get the least total time for rendezvous for the entire mission. A neural network (NN) policy is developed, trained on simulated space missions with varying debris fields. After training, the neural network calculates approximately optimal paths using Izzo's adaptation of Lambert maneuvers. Performance is evaluated against standard heuristics in mission planning. The reinforcement learning approach demonstrates a significant improvement in planning efficiency by optimizing the sequence for debris rendezvous, reducing the total mission time by an average of approximately {10.96\%} and {13.66\%} compared to the Genetic and Greedy algorithms, respectively. The model on average identifies the most time-efficient sequence for debris visitation across various simulated scenarios with the fastest computational speed. This approach signifies a step forward in enhancing mission planning strategies for space debris clearance.
- Abstract(参考訳): 本研究は, 深部強化学習(RL)分野におけるPPOアルゴリズムの新たな適用法として, Izzo の個別ランデブーへの適応法である Lambert solver を用いて, 宇宙デブリの最も効率的な順序決定法を提案する。
目的は、与えられたすべての破片を訪問して、ミッション全体のランデブーを最小限に抑えるシーケンスを最適化することである。
ニューラルネットワーク(NN)ポリシーが開発され、さまざまなデブリフィールドを持つシミュレーションされた宇宙ミッションで訓練される。
トレーニング後、ニューラルネットワークは、Izzoのランベルト操作の適応を使って、ほぼ最適な経路を計算する。
ミッションプランニングにおける標準的なヒューリスティックスに対して、パフォーマンスが評価される。
補強学習手法は, ダストレンデブーのシーケンスを最適化し, 約10.96\%, 約13.66\%のミッションタイムを遺伝的アルゴリズムとグレディアルゴリズムと比較することにより, 計画効率を著しく向上させる。
平均的なモデルは、計算速度の速い様々なシミュレーションシナリオにおける破片訪問の最も時間効率のよいシーケンスを同定する。
このアプローチは、宇宙デブリのクリアランスのためのミッション計画戦略を強化するための一歩である。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Large region targets observation scheduling by multiple satellites using
resampling particle swarm optimization [0.3324876873771104]
過去数十年間、地球観測衛星(EOS)の急速な増加を目撃してきた。
本稿では,大域目標に対するEOSの監視スケジューリング問題に対処することを目的とする。
論文 参考訳(メタデータ) (2022-06-21T08:18:02Z) - GEO satellites on-orbit repairing mission planning with mission deadline
constraint using a large neighborhood search-genetic algorithm [2.106508530625051]
本稿では,多対多の軌道修正ミッション計画のための大規模近傍探索適応型遺伝的アルゴリズム(LNS-AGA)を提案する。
多くの軌道上の修理シナリオでは、いくつかのサーベイリング宇宙船とターゲット衛星がGEO軌道にあり、RAANと真の異常がある。
ミッションの目的は、すべての衛星が修理された全ての衛星の総コストを最小化するために、すべての衛星の最適なサービスシーケンスと軌道ランデブー時間を見つけることである。
論文 参考訳(メタデータ) (2021-10-08T03:33:37Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Safety-enhanced UAV Path Planning with Spherical Vector-based Particle
Swarm Optimization [5.076419064097734]
本稿では,無人航空機(UAV)の経路計画問題に対処するため,球面ベクトルベース粒子群最適化 (SPSO) という新しいアルゴリズムを提案する。
コスト関数が最初に定式化され、経路計画がUAVの実用的で安全な運用に必要な要件と制約を組み込んだ最適化問題に変換される。
SPSOは、UAVの構成空間を効率的に探索することでコスト関数を最小化する最適経路を見つけるために使用される。
論文 参考訳(メタデータ) (2021-04-13T06:45:11Z) - Autonomous Drone Racing with Deep Reinforcement Learning [39.757652701917166]
ドローンレースのような多くのロボットタスクにおいて、ゴールはできるだけ速くコースポイントを移動することである。
重要な課題は、事前に通過するウェイポイントの完全な知識を想定して解決される最小時間軌道を計画することです。
本研究では,クワッドロータの最小時間軌道生成法を提案する。
論文 参考訳(メタデータ) (2021-03-15T18:05:49Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - MLE-guided parameter search for task loss minimization in neural
sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文 参考訳(メタデータ) (2020-06-04T22:21:22Z) - Congestion-aware Evacuation Routing using Augmented Reality Devices [96.68280427555808]
複数の目的地間でリアルタイムに個別の避難経路を生成する屋内避難のための渋滞対応ルーティングソリューションを提案する。
建物内の混雑分布をモデル化するために、ユーザエンド拡張現実(AR)デバイスから避難者の位置を集約して、オンザフライで取得した人口密度マップを用いる。
論文 参考訳(メタデータ) (2020-04-25T22:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。