論文の概要: A Markov Decision Process Framework for Early Maneuver Decisions in Satellite Collision Avoidance
- arxiv url: http://arxiv.org/abs/2508.05876v1
- Date: Thu, 07 Aug 2025 21:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.019982
- Title: A Markov Decision Process Framework for Early Maneuver Decisions in Satellite Collision Avoidance
- Title(参考訳): 衛星衝突回避における初期マニキュア決定のためのマルコフ決定プロセスフレームワーク
- Authors: Francesca Ferrara, Lander W. Schillinger Arana, Florian Dörfler, Sarah H. Q. Li,
- Abstract要約: 本研究は衝突回避操作(CAM)のための意思決定をモデル化するためのマルコフ決定プロセス(MDP)フレームワークを提案する。
許容される衝突リスクの維持に加えて、早期の操縦決定を行うことにより、CAMの燃費を最小化することを目指す。
- 参考スコア(独自算出の注目度): 2.0971479389679337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a Markov decision process (MDP) framework to model decision-making for collision avoidance maneuver (CAM) and a reinforcement learning policy gradient (RL-PG) algorithm to train an autonomous guidance policy using historic CAM data. In addition to maintaining acceptable collision risks, this approach seeks to minimize the average fuel consumption of CAMs by making early maneuver decisions. We model CAM as a continuous state, discrete action and finite horizon MDP, where the critical decision is determining when to initiate the maneuver. The MDP model also incorporates analytical models for conjunction risk, propellant consumption, and transit orbit geometry. The Markov policy effectively trades-off maneuver delay-which improves the reliability of conjunction risk indicators-with propellant consumption-which increases with decreasing maneuver time. Using historical data of tracked conjunction events, we verify this framework and conduct an extensive ablation study on the hyper-parameters used within the MDP. On synthetic conjunction events, the trained policy significantly minimizes both the overall and average propellant consumption per CAM when compared to a conventional cut-off policy that initiates maneuvers 24 hours before the time of closest approach (TCA). On historical conjunction events, the trained policy consumes more propellant overall but reduces the average propellant consumption per CAM. For both historical and synthetic conjunction events, the trained policy achieves equal if not higher overall collision risk guarantees.
- Abstract(参考訳): 本研究では,衝突回避操作(CAM)のための意思決定をモデル化するためのマルコフ決定プロセス(MDP)フレームワークと,歴史的CAMデータを用いた自律誘導政策のトレーニングのための強化学習ポリシー勾配(RL-PG)アルゴリズムを提案する。
許容される衝突リスクの維持に加えて、早期の操縦決定を行うことにより、CAMの燃費を最小化することを目指す。
我々は,CAMを連続状態,離散動作,有限地平線MDPとしてモデル化する。
MDPモデルは、共同リスク、推進剤消費、トランジット軌道幾何学の分析モデルも取り入れている。
マルコフ政策は、操作時間の短縮とともに増加する推進剤の消費とともに、協調リスク指標の信頼性を向上させる操舵遅延を効果的にトレードオフする。
追跡された協調イベントの履歴データを用いて、この枠組みを検証し、MDP内で使用されるハイパーパラメータについて広範囲にわたるアブレーション研究を行う。
総合的な連成イベントにおいて、訓練されたポリシーは、最も近いアプローチ(TCA)の24時間前に操作を開始する従来のカットオフポリシーと比較して、CAM当たりの全体および平均推進剤消費を著しく最小化する。
歴史的統合イベントでは、訓練された政策は全体として推進剤を消費するが、CAM当たりの平均推進剤消費量は減少する。
歴史的および総合的な統合イベントの両方において、訓練されたポリシーは、全体的な衝突リスクの保証が高くなければ等しく達成される。
関連論文リスト
- HCOMC: A Hierarchical Cooperative On-Ramp Merging Control Framework in Mixed Traffic Environment on Two-Lane Highways [6.838130893718755]
コネクテッド・アンド・オートマチック・カーズ(CAV)に基づく協調制御戦略は,この問題に対する基本的な解決策である。
CAVは完全には普及していないが、異種交通流に対する階層的協調型オンランプマージ制御(HCOMC)フレームワークを提案する必要がある。
本稿では,修正仮想車両モデルに基づく階層的協調計画モデル,ゲーム理論に基づく離散車線変更モデル,マルチマインド最適化モデルからなるHCOMCフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-15T18:01:29Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Statistical Learning of Conjunction Data Messages Through a Bayesian
Non-Homogeneous Poisson Process [0.0]
衝突回避と宇宙交通管理の現在のアプローチは多くの課題に直面している。
衛星所有者/オペレーターは、衝突回避操作を行う必要があるかどうかを決定するために、資産の衝突リスクを認識しなければならない。
論文 参考訳(メタデータ) (2023-11-09T15:04:14Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Tactical Decision Making for Emergency Vehicles Based on A Combinational
Learning Method [3.995104718683131]
ルールベースの回避戦略(AS)が考案され、EVの前に優先されたゾーンのCVはそれを避けるために車線を加速または変更すべきである。
速度適応型コンパクト状態空間(SC-DQN)を持つ新しいDQN法をEVの高速機能に適合させる。
次のアプローチは、DRLが一般化におけるルールベースの回避戦略を補完し、それらの組み合わせにより、応答時間が少なく、衝突速度が低く、軌道が滑らかになることを示している。
論文 参考訳(メタデータ) (2020-09-09T10:41:56Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。