論文の概要: Evaluating Robustness and Adaptability in Learning-Based Mission Planning for Active Debris Removal
- arxiv url: http://arxiv.org/abs/2602.05091v1
- Date: Wed, 04 Feb 2026 22:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.646554
- Title: Evaluating Robustness and Adaptability in Learning-Based Mission Planning for Active Debris Removal
- Title(参考訳): アクティブデブリ除去のための学習型ミッションプランニングにおけるロバスト性と適応性の評価
- Authors: Agni Bandyopadhyay, Günther Waxenegger-Wilfing,
- Abstract要約: この研究は、低地球軌道における制約付きマルチデブリランデブー問題の3つのプランナーを比較した。
再燃料化, 現実的な移動力学, ランダム化された破片場を用いた高忠実軌道シミュレーションにより評価を行った。
- 参考スコア(独自算出の注目度): 22.261628532402067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous mission planning for Active Debris Removal (ADR) must balance efficiency, adaptability, and strict feasibility constraints on fuel and mission duration. This work compares three planners for the constrained multi-debris rendezvous problem in Low Earth Orbit: a nominal Masked Proximal Policy Optimization (PPO) policy trained under fixed mission parameters, a domain-randomized Masked PPO policy trained across varying mission constraints for improved robustness, and a plain Monte Carlo Tree Search (MCTS) baseline. Evaluations are conducted in a high-fidelity orbital simulation with refueling, realistic transfer dynamics, and randomized debris fields across 300 test cases in nominal, reduced fuel, and reduced mission time scenarios. Results show that nominal PPO achieves top performance when conditions match training but degrades sharply under distributional shift, while domain-randomized PPO exhibits improved adaptability with only moderate loss in nominal performance. MCTS consistently handles constraint changes best due to online replanning but incurs orders-of-magnitude higher computation time. The findings underline a trade-off between the speed of learned policies and the adaptability of search-based methods, and suggest that combining training-time diversity with online planning could be a promising path for future resilient ADR mission planners.
- Abstract(参考訳): アクティブデブリ除去(ADR)のための自律的なミッションプランニングは、効率性、適応性、および燃料とミッションの持続時間に対する厳密な実行可能性の制約をバランスさせなければならない。
この研究は、低地球軌道における制約付きマルチデブリランデブー問題に対する3つのプランナーを比較した: 固定ミッションパラメータで訓練された名目上のMasked Proximal Policy Optimization (PPO)ポリシー、堅牢性を改善するために様々なミッション制約で訓練されたドメインランダム化されたMasked PPOポリシー、およびモンテカルロ木探索(MCTS)ベースライン。
評価は高忠実度軌道シミュレーションにおいて,300の試験ケースにまたがる再燃料化,現実的な移動力学,ランダム化された破片場を,名目上,燃料の削減,ミッションタイムのシナリオの短縮により行った。
その結果, ドメインランダム化PPOは適応性が向上し, 名目性能は適度な低下しかみられなかった。
MCTSは、オンラインのリプランニングのため、制約変更を常に処理するが、より高次の計算時間を発生させる。
この結果は,学習方針の速さと検索手法の適応性とのトレードオフを浮き彫りにしており,オンラインプランニングとトレーニング時間の多様性を組み合わせることが,将来レジリエントなADRミッションプランナにとって有望な道のりであることを示唆している。
関連論文リスト
- Optimizing Mission Planning for Multi-Debris Rendezvous Using Reinforcement Learning with Refueling and Adaptive Collision Avoidance [22.261628532402067]
本研究では, アクティブデブリ除去ミッションにおける適応衝突回避のための強化学習に基づく枠組みを提案する。
小型衛星は、柔軟性、コスト効率、操縦性から採用され、ADRのようなダイナミックなミッションに適している。
このフレームワークは、補給戦略、効率的なミッション計画、適応衝突回避を統合し、宇宙船のランデブー操作を最適化する。
論文 参考訳(メタデータ) (2026-02-04T21:49:20Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Harnessing Bounded-Support Evolution Strategies for Policy Refinement [3.3656696418661975]
三角分布ES対は、安定で、並列化可能で、勾配のない更新を提供する中心ランク有限差分推定器を持つ三角形雑音に有界である。
2段階のパイプライン - PPO事前トレーニングとTD-ESの改良 – では、早期サンプル効率を維持しながら、堅牢な後期ステージゲインを実現している。
ロボット操作タスクのスイート全体で、TD-ESはPPOと比較して26.5%の成功率を高め、信頼性の高い改良のための単純で計算軽量なパスを提供する。
論文 参考訳(メタデータ) (2025-11-13T03:35:52Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Learning Robust Policies for Generalized Debris Capture with an
Automated Tether-Net System [2.0429716172112617]
本稿では,政策最適化アプローチとネット力学シミュレーションを統合した強化学習フレームワークを提案する。
状態遷移モデルは、状態推定と起動動作に合成不確実性を組み込むために検討される。
トレーニングされたポリシーは、個々のシナリオ上で実行される信頼性ベースの最適化で得られたものに近いキャプチャパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-11T20:09:05Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。