Fugu-MT 論文翻訳(概要): Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning

論文の概要: Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.15083v1
Date: Sun, 21 Jul 2024 07:47:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 19:28:49.202125
Title: Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning
Title（参考訳）: ランダムアニーリングジャンプ強化学習によるロケット着陸制御
Authors: Yuxuan Jiang, Yujie Yang, Zhiqian Lan, Guojian Zhan, Shengbo Eben Li, Qi Sun, Jian Ma, Tianwen Yu, Changwu Zhang,
Abstract要約: 本稿では,RLを用いた高忠実度ロケットモデルにおいて,ベースライン制御による8%から97%までのロケット着陸制御の成功率を著しく向上させる。我々のアプローチはRandom Annealing Jump Start (RAJS)と呼ばれ、RLにおける環境探索と政策学習を促進するためのガイドポリシーとして、事前のフィードバックコントローラを活用することで、現実の目標志向の問題に合わせたものである。
参考スコア（独自算出の注目度）: 19.87058922821708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Rocket recycling is a crucial pursuit in aerospace technology, aimed at reducing costs and environmental impact in space exploration. The primary focus centers on rocket landing control, involving the guidance of a nonlinear underactuated rocket with limited fuel in real-time. This challenging task prompts the application of reinforcement learning (RL), yet goal-oriented nature of the problem poses difficulties for standard RL algorithms due to the absence of intermediate reward signals. This paper, for the first time, significantly elevates the success rate of rocket landing control from 8% with a baseline controller to 97% on a high-fidelity rocket model using RL. Our approach, called Random Annealing Jump Start (RAJS), is tailored for real-world goal-oriented problems by leveraging prior feedback controllers as guide policy to facilitate environmental exploration and policy learning in RL. In each episode, the guide policy navigates the environment for the guide horizon, followed by the exploration policy taking charge to complete remaining steps. This jump-start strategy prunes exploration space, rendering the problem more tractable to RL algorithms. The guide horizon is sampled from a uniform distribution, with its upper bound annealing to zero based on performance metrics, mitigating distribution shift and mismatch issues in existing methods. Additional enhancements, including cascading jump start, refined reward and terminal condition, and action smoothness regulation, further improve policy performance and practical applicability. The proposed method is validated through extensive evaluation and Hardware-in-the-Loop testing, affirming the effectiveness, real-time feasibility, and smoothness of the proposed controller.
Abstract（参考訳）: ロケットのリサイクルは、宇宙探査におけるコストと環境への影響を減らすことを目的とした、航空宇宙技術における重要な追求である。主な焦点はロケットの着陸制御であり、リアルタイムで燃料を限定した非線形不活性化ロケットの誘導を含む。この課題は強化学習(RL)の適用を促すが、その目的指向性は中間報酬信号の欠如により標準RLアルゴリズムに困難をもたらす。本稿では,RLを用いた高忠実度ロケットモデルにおいて,ベースライン制御によるロケット着陸制御の成功率を8%から97%に向上させた。我々のアプローチはRandom Annealing Jump Start (RAJS)と呼ばれ、RLにおける環境探索と政策学習を促進するためのガイドポリシーとして、事前のフィードバックコントローラを活用することで、現実の目標志向の問題に合わせたものである。それぞれのエピソードにおいて、ガイドポリシーは、ガイド地平線のための環境をナビゲートし、残りのステップを完了するために対処する探索ポリシーが続く。このジャンプスタート戦略は探索空間を突破し、RLアルゴリズムよりも難解な問題を引き起こす。導出地平線は一様分布からサンプリングされ、その上限は性能指標に基づいてゼロに熱し、分布シフトを緩和し、既存手法のミスマッチ問題を緩和する。カスケードジャンプスタート、洗練された報酬とターミナル条件、アクションスムーズネスの規制を含む追加の強化により、政策性能と実用性はさらに向上した。提案手法はハードウェア・イン・ザ・ループ・テストによって評価され,提案方式の有効性,実時間実現性,スムーズ性が確認された。

関連論文リスト

Deep reinforcement learning-based longitudinal control strategy for automated vehicles at signalised intersections [2.9398787168955116]
本研究では,信号交差点における深部強化学習に基づく縦方向車両制御戦略を提案する。総合的な報酬関数は、特に距離方向に基づく効率報酬に焦点を当てて定式化されている。 DDPG(Deep Deterministic Policy Gradient)とSAC(Soft-Actor Critic)という2つのDRLアルゴリズムが組み込まれている。
論文参考訳（メタデータ） (2025-05-13T18:38:42Z)
What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study [24.239835581921458]
実世界の四角形におけるゼロショット展開が可能なロバストなRL制御ポリシーを学習するための重要な要因について検討する。これら5つのテクニックを統合した,PPOベースのトレーニングフレームワークSimpleFlightを開発した。クレージーフリー四重極に対するSimpleFlightの有効性を検証し,軌道追従誤差を50%以上低減できることを実証した。
論文参考訳（メタデータ） (2024-12-16T13:31:26Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。 RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。 AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
Laboratory Experiments of Model-based Reinforcement Learning for Adaptive Optics Control [0.565395466029518]
ESO本部のGHOSTテストベンチに、AO(PO4AO)のためのポリシー最適化と呼ばれるRL手法を実装し、適応する。本手法の予測的・自己校正的側面について検討する。 PyTorchを実行しているGHOSTの新しい実装では、ハードウェア、パイプライン、Pythonインターフェースのレイテンシに加えて、700マイクロ秒程度しか導入されていない。
論文参考訳（メタデータ） (2023-12-30T14:11:43Z)
Data-efficient Deep Reinforcement Learning for Vehicle Trajectory Control [6.144517901919656]
強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。 SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。近年開発されたディープRL法を車両軌道制御に適用した。
論文参考訳（メタデータ） (2023-11-30T09:38:59Z)
CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。 CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文参考訳（メタデータ） (2023-06-09T18:45:15Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
A reinforcement learning path planning approach for range-only underwater target localization with autonomous vehicles [0.0]
ROSBターゲットローカライゼーション法では, 目標位置の最適精度を得るためには, 目標位置付近の追尾車の軌道が重要な役割を果たす。そこで本研究では,自動運転車が追従すべき最適経路を見つけるための強化学習(RL)手法について検討し,予測対象の局所化の全体的な精度を向上し,最適化する。
論文参考訳（メタデータ） (2023-01-17T13:16:16Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Rule-Based Reinforcement Learning for Efficient Robot Navigation with Space Reduction [8.279526727422288]
本稿では,強化学習(RL)技術を用いた効率的なナビゲーションに焦点を当てた。軌道を縮小するために減速ルールを採用し、冗長な探査空間を効果的に削減します。ヘックスグリッド環境における実際のロボットナビゲーション問題に対する実験は、RuRLが航法性能を向上させることを実証している。
論文参考訳（メタデータ） (2021-04-15T07:40:27Z)
Reinforcement Learning for Low-Thrust Trajectory Design of Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。最先端アルゴリズムのオープンソース実装が採用されている。その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文参考訳（メタデータ） (2020-08-19T15:22:15Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。