論文の概要: Optimal Multi-Debris Mission Planning in LEO: A Deep Reinforcement Learning Approach with Co-Elliptic Transfers and Refueling
- arxiv url: http://arxiv.org/abs/2602.17685v1
- Date: Wed, 04 Feb 2026 22:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.518388
- Title: Optimal Multi-Debris Mission Planning in LEO: A Deep Reinforcement Learning Approach with Co-Elliptic Transfers and Refueling
- Title(参考訳): LEOにおける最適マルチデブリミッション計画:共楕円移動と再給油による深層強化学習アプローチ
- Authors: Agni Bandyopadhyay, Gunther Waxenegger-Wilfing,
- Abstract要約: 本稿では, ホフマン転移, 安全近接操作, 明示的再給油論理を組み合わせた統合型楕円型操舵フレームワークを提案する。
我々は、Greedy、Monte Carlo Tree Search(MCTS)、Deep reinforcement Learning(RL)の3つの異なる計画アルゴリズムをベンチマークする。
100以上のテストシナリオの実験結果から,Masked PPOはミッション効率と計算性能に優れることが示された。
- 参考スコア(独自算出の注目度): 22.261628532402067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of multi target active debris removal (ADR) in Low Earth Orbit (LEO) by introducing a unified coelliptic maneuver framework that combines Hohmann transfers, safety ellipse proximity operations, and explicit refueling logic. We benchmark three distinct planning algorithms Greedy heuristic, Monte Carlo Tree Search (MCTS), and deep reinforcement learning (RL) using Masked Proximal Policy Optimization (PPO) within a realistic orbital simulation environment featuring randomized debris fields, keep out zones, and delta V constraints. Experimental results over 100 test scenarios demonstrate that Masked PPO achieves superior mission efficiency and computational performance, visiting up to twice as many debris as Greedy and significantly outperforming MCTS in runtime. These findings underscore the promise of modern RL methods for scalable, safe, and resource efficient space mission planning, paving the way for future advancements in ADR autonomy.
- Abstract(参考訳): 本稿では,ローアース軌道(LEO)における多目的アクティブデブリ除去(ADR)の課題に対して,ホフマン移動,安全楕円近接操作,明示的再給油ロジックを組み合わせた統合型楕円型操作フレームワークを導入する。
我々は, ランダム化されたデブリフィールド, ゾーンの確保, デルタV制約を含む現実的な軌道シミュレーション環境において, マスケプロクサマルポリシー最適化(PPO)を用いた3つの異なる計画アルゴリズムであるGreedy Heuristic, Monte Carlo Tree Search (MCTS) とDeep reinforcement Learning (RL) をベンチマークした。
100以上のテストシナリオの実験結果から、Masked PPOは、Greedyの最大2倍のデブリを訪問し、実行時にMCTSを著しく上回る、優れたミッション効率と計算性能を実現することが示された。
これらの発見は、スケーラブルで安全で資源効率のよい宇宙ミッション計画のための近代的なRL手法の約束を強調し、将来的なADRの自律性向上への道を開いた。
関連論文リスト
- Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation [50.406803870992974]
Plan-MCTSは、探索を意味的なPlan Spaceに移行することでWebナビゲーションを再構築するフレームワークである。
Plan-MCTSは最先端の性能を達成し、タスク効率と探索効率を向上した現在の手法を超越している。
論文 参考訳(メタデータ) (2026-02-15T10:24:45Z) - Evaluating Robustness and Adaptability in Learning-Based Mission Planning for Active Debris Removal [22.261628532402067]
この研究は、低地球軌道における制約付きマルチデブリランデブー問題の3つのプランナーを比較した。
再燃料化, 現実的な移動力学, ランダム化された破片場を用いた高忠実軌道シミュレーションにより評価を行った。
論文 参考訳(メタデータ) (2026-02-04T22:22:40Z) - Optimizing Mission Planning for Multi-Debris Rendezvous Using Reinforcement Learning with Refueling and Adaptive Collision Avoidance [22.261628532402067]
本研究では, アクティブデブリ除去ミッションにおける適応衝突回避のための強化学習に基づく枠組みを提案する。
小型衛星は、柔軟性、コスト効率、操縦性から採用され、ADRのようなダイナミックなミッションに適している。
このフレームワークは、補給戦略、効率的なミッション計画、適応衝突回避を統合し、宇宙船のランデブー操作を最適化する。
論文 参考訳(メタデータ) (2026-02-04T21:49:20Z) - TLE-Based A2C Agent for Terrestrial Coverage Orbital Path Planning [0.0]
低地球軌道(LEO)の混雑は、地球観測衛星の効率的な展開と安全な運用に永続的な課題をもたらす。
本研究では,Advantage Actor-Critic (A2C) アルゴリズムを用いて衛星軌道パラメータを精密な地上被覆のために最適化する強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-14T17:44:51Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - AI-Driven Risk-Aware Scheduling for Active Debris Removal Missions [0.0]
低地球軌道でのデブリは、宇宙の持続可能性と宇宙船の安全性に対する重大な脅威である。
装甲輸送車両(OTV)は破片の軌道離脱を促進し、将来の衝突リスクを減らす。
深部補強学習(DRL)に基づく装甲決定計画モデルを構築し,OTVを最適デブリ除去シークエンシングを計画する。
提案手法を用いることで、最適なミッションプランを見つけ、衝突リスクの高い破片のリスクハンドリングを含む自律的に計画の更新を学べることが示されている。
論文 参考訳(メタデータ) (2024-09-25T15:16:07Z) - Revisiting Space Mission Planning: A Reinforcement Learning-Guided Approach for Multi-Debris Rendezvous [15.699822139827916]
目的は、与えられたすべての破片を訪問して、ミッション全体のランデブーを最小限に抑えるシーケンスを最適化することである。
ニューラルネットワーク(NN)ポリシーが開発され、さまざまなデブリフィールドを持つシミュレーションされた宇宙ミッションで訓練される。
強化学習アプローチは計画効率を著しく向上させる。
論文 参考訳(メタデータ) (2024-09-25T12:50:01Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。