論文の概要: Learning Robust Policies for Generalized Debris Capture with an
Automated Tether-Net System
- arxiv url: http://arxiv.org/abs/2201.04180v1
- Date: Tue, 11 Jan 2022 20:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 23:47:09.998970
- Title: Learning Robust Policies for Generalized Debris Capture with an
Automated Tether-Net System
- Title(参考訳): 自動tether-netシステムを用いた一般化デブリ捕獲のためのロバストポリシーの学習
- Authors: Chen Zeng, Grant Hecht, Prajit KrisshnaKumar, Raj K. Shah, Souma
Chowdhury and Eleonora M. Botta
- Abstract要約: 本稿では,政策最適化アプローチとネット力学シミュレーションを統合した強化学習フレームワークを提案する。
状態遷移モデルは、状態推定と起動動作に合成不確実性を組み込むために検討される。
トレーニングされたポリシーは、個々のシナリオ上で実行される信頼性ベースの最適化で得られたものに近いキャプチャパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 2.0429716172112617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tether-net launched from a chaser spacecraft provides a promising method to
capture and dispose of large space debris in orbit. This tether-net system is
subject to several sources of uncertainty in sensing and actuation that affect
the performance of its net launch and closing control. Earlier
reliability-based optimization approaches to design control actions however
remain challenging and computationally prohibitive to generalize over varying
launch scenarios and target (debris) state relative to the chaser. To search
for a general and reliable control policy, this paper presents a reinforcement
learning framework that integrates a proximal policy optimization (PPO2)
approach with net dynamics simulations. The latter allows evaluating the
episodes of net-based target capture, and estimate the capture quality index
that serves as the reward feedback to PPO2. Here, the learned policy is
designed to model the timing of the net closing action based on the state of
the moving net and the target, under any given launch scenario. A stochastic
state transition model is considered in order to incorporate synthetic
uncertainties in state estimation and launch actuation. Along with notable
reward improvement during training, the trained policy demonstrates capture
performance (over a wide range of launch/target scenarios) that is close to
that obtained with reliability-based optimization run over an individual
scenario.
- Abstract(参考訳): チェイサー宇宙船から打ち上げられたテザーネットは、軌道上の大きな宇宙ゴミを捕獲し処分する有望な方法を提供する。
このテザネットシステムは、ネット発射・閉鎖制御の性能に影響を及ぼすセンサとアクチュエーターの不確実性の原因を複数抱えている。
しかし、初期の信頼性に基づく制御アクション設計の最適化アプローチは、チェイサーに対する様々な発射シナリオと目標(デブリス)状態の一般化を困難かつ計算的に禁止している。
本稿では,汎用かつ信頼性の高い制御ポリシを探索するために,ppo(proximal policy optimization)アプローチとネットダイナミクスシミュレーションを統合した強化学習フレームワークを提案する。
後者は、ネットベースのターゲットキャプチャのエピソードを評価し、PPO2に対する報酬フィードバックとして機能するキャプチャ品質指標を推定する。
ここで、学習されたポリシーは、任意の発射シナリオに基づいて、移動網の状態と目標に基づいて、網閉動作のタイミングをモデル化するように設計されている。
状態推定と起動動作に合成不確実性を組み込むために,確率的状態遷移モデルを考える。
トレーニング中の顕著な報酬改善に加えて、トレーニングされたポリシは、個々のシナリオで実行される信頼性ベースの最適化によって得られたものに近い(幅広い発射/目標シナリオにわたる)キャプチャパフォーマンスを実証する。
関連論文リスト
- ProSpec RL: Plan Ahead, then Execute [7.028937493640123]
将来的なnストリーム軌道を想像して,高値,低リスクの最適決定を行うProspective (ProSpec) RL法を提案する。
ProSpecは、現在の状態と一連のサンプルアクションに基づいて将来の状態を予測するために、ダイナミックモデルを使用している。
提案手法の有効性をDMControlベンチマークで検証し,本手法による性能改善を実現した。
論文 参考訳(メタデータ) (2024-07-31T06:04:55Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Practical Probabilistic Model-based Deep Reinforcement Learning by
Integrating Dropout Uncertainty and Trajectory Sampling [7.179313063022576]
本稿では,ニューラルネットワーク上に構築された現在の確率モデルベース強化学習(MBRL)の予測安定性,予測精度,制御能力について述べる。
トラジェクトリサンプリング(DPETS)を用いた新しいアプローチであるドロップアウト型確率アンサンブルを提案する。
論文 参考訳(メタデータ) (2023-09-20T06:39:19Z) - UAV Path Planning Employing MPC- Reinforcement Learning Method for
search and rescue mission [0.0]
複雑で不確実な環境での無人航空路計画(UA V)の課題に取り組む。
本稿では,Long-Short-Term Memory (LSTM) ネットワークに基づくモデル予測制御(MPC)を,Deep Deterministic Policy Gradientアルゴリズムに統合して設計する。
論文 参考訳(メタデータ) (2023-02-21T13:39:40Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming [97.75330397207742]
深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングのための予測電力割り当てを考案した。
連続状態と行動空間を扱うために、我々はDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出される最適方針に収束することが示された。
論文 参考訳(メタデータ) (2020-03-21T17:36:53Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。