論文の概要: Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions
- arxiv url: http://arxiv.org/abs/2008.08501v1
- Date: Wed, 19 Aug 2020 15:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 08:41:27.217755
- Title: Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions
- Title(参考訳): 惑星間ミッションの低推力軌道設計のための強化学習
- Authors: Alessandro Zavoli and Lorenzo Federici
- Abstract要約: 本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the use of Reinforcement Learning for the robust
design of low-thrust interplanetary trajectories in presence of severe
disturbances, modeled alternatively as Gaussian additive process noise,
observation noise, control actuation errors on thrust magnitude and direction,
and possibly multiple missed thrust events. The optimal control problem is
recast as a time-discrete Markov Decision Process to comply with the standard
formulation of reinforcement learning. An open-source implementation of the
state-of-the-art algorithm Proximal Policy Optimization is adopted to carry out
the training process of a deep neural network, used to map the spacecraft
(observed) states to the optimal control policy. The resulting Guidance and
Control Network provides both a robust nominal trajectory and the associated
closed-loop guidance law. Numerical results are presented for a typical
Earth-Mars mission. First, in order to validate the proposed approach, the
solution found in a (deterministic) unperturbed scenario is compared with the
optimal one provided by an indirect technique. Then, the robustness and
optimality of the obtained closed-loop guidance laws is assessed by means of
Monte Carlo campaigns performed in the considered uncertain scenarios. These
preliminary results open up new horizons for the use of reinforcement learning
in the robust design of interplanetary missions.
- Abstract(参考訳): 本稿では,低推力な惑星間軌道の頑健な設計にReinforcement Learningを用い,ガウス加法プロセスノイズ,観測ノイズ,スラストの大きさと方向の制御動作誤差,さらには複数回のスラストイベントをモデル化した。
最適制御問題は時間離散マルコフ決定過程として再キャストされ、強化学習の標準定式化に適合する。
最先端のアルゴリズムであるプロキシポリシー最適化のオープンソース実装が採用され、(観測された)宇宙船状態を最適制御ポリシーにマッピングするために使用されるディープニューラルネットワークのトレーニングプロセスを実行する。
その結果得られた誘導制御ネットワークは、堅牢な名目軌道と関連する閉ループ誘導法の両方を提供する。
典型的な地球-火星ミッションでは数値的な結果が示される。
まず,提案手法を検証するために,(決定論的)非摂動シナリオにおける解を間接的手法による最適解と比較する。
得られた閉ループ誘導法則のロバスト性と最適性は,不確実性を考慮したモンテカルロのキャンペーンによって評価される。
これらの予備的な結果は、惑星間ミッションの堅牢な設計に強化学習を使用するための新しい地平を開く。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Revisiting Space Mission Planning: A Reinforcement Learning-Guided Approach for Multi-Debris Rendezvous [15.699822139827916]
目的は、与えられたすべての破片を訪問して、ミッション全体のランデブーを最小限に抑えるシーケンスを最適化することである。
ニューラルネットワーク(NN)ポリシーが開発され、さまざまなデブリフィールドを持つシミュレーションされた宇宙ミッションで訓練される。
強化学習アプローチは計画効率を著しく向上させる。
論文 参考訳(メタデータ) (2024-09-25T12:50:01Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Deep Bayesian Reinforcement Learning for Spacecraft Proximity Maneuvers and Docking [4.9653656404010205]
本研究では,ベイズアクター批判型強化学習アルゴリズムを導入し,安定度を保証した制御ポリシーを学習する。
提案アルゴリズムは, 宇宙機搭載テストベッドで実験的に評価され, 目覚ましい性能と有望な性能を示す。
論文 参考訳(メタデータ) (2023-11-07T03:12:58Z) - Low-Thrust Orbital Transfer using Dynamics-Agnostic Reinforcement
Learning [0.0]
本研究では,低推力中軌道衛星を対象としたモデルフリー強化学習を用いてエージェントを訓練する。
訓練されたエージェントは、軌道を設計し、巡航中に衛星を自律的に制御するために使用される。
論文 参考訳(メタデータ) (2022-10-06T08:36:35Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Motion Planning for Autonomous Vehicles in the Presence of Uncertainty
Using Reinforcement Learning [0.0]
不確実性の下での運動計画は、自動運転車の開発における主要な課題の1つである。
最悪の事例を最適化して不確実性を管理するための強化学習に基づくソリューションを提案する。
提案手法は従来のRLアルゴリズムよりもはるかに優れた動作計画行動を示し,人間の運転スタイルと相容れない動作を示す。
論文 参考訳(メタデータ) (2021-10-01T20:32:25Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。