論文の概要: Reinforcement Learning for Robust Missile Autopilot Design
- arxiv url: http://arxiv.org/abs/2011.12956v2
- Date: Sat, 18 Sep 2021 11:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 08:48:42.480221
- Title: Reinforcement Learning for Robust Missile Autopilot Design
- Title(参考訳): ロバストミサイルオートパイロット設計のための強化学習
- Authors: Bernardo Cortez
- Abstract要約: この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing missiles' autopilot controllers has been a complex task, given the
extensive flight envelope and the nonlinear flight dynamics. A solution that
can excel both in nominal performance and in robustness to uncertainties is
still to be found. While Control Theory often debouches into parameters'
scheduling procedures, Reinforcement Learning has presented interesting results
in ever more complex tasks, going from videogames to robotic tasks with
continuous action domains. However, it still lacks clearer insights on how to
find adequate reward functions and exploration strategies. To the best of our
knowledge, this work is pioneer in proposing Reinforcement Learning as a
framework for flight control. In fact, it aims at training a model-free agent
that can control the longitudinal flight of a missile, achieving optimal
performance and robustness to uncertainties. To that end, under TRPO's
methodology, the collected experience is augmented according to HER, stored in
a replay buffer and sampled according to its significance. Not only does this
work enhance the concept of prioritized experience replay into BPER, but it
also reformulates HER, activating them both only when the training progress
converges to suboptimal policies, in what is proposed as the SER methodology.
Besides, the Reward Engineering process is carefully detailed. The results show
that it is possible both to achieve the optimal performance and to improve the
agent's robustness to uncertainties (with low damage on nominal performance) by
further training it in non-nominal environments, therefore validating the
proposed approach and encouraging future research in this field.
- Abstract(参考訳): ミサイルのオートパイロット制御器の設計は、広範な飛行封筒と非線形飛行力学を考えると、複雑な作業であった。
名目上のパフォーマンスと不確実性に対する堅牢性を両立できるソリューションは、まだ見つからない。
制御理論はしばしばパラメータのスケジューリング手順に分解されるが、強化学習は、ビデオゲームから連続的なアクション領域を持つロボットタスクまで、より複雑なタスクにおいて興味深い結果をもたらす。
しかし、適切な報酬関数や探索戦略を見つける方法に関するより明確な洞察はいまだに欠けている。
私たちの知る限りでは、この研究は飛行制御のフレームワークとして強化学習を提案する先駆者です。
実際、ミサイルの長手飛行を制御し、最適な性能と不確実性に対する堅牢性を達成できるモデルフリーエージェントを訓練することを目指している。
TRPOの方法論では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
この研究は、優先順位付けされた経験のリプレイの概念をBPERに拡張するだけでなく、HERを再構成し、トレーニングの進捗が最適以下のポリシーに収束した場合のみ、SER方法論として提案される。
また、Reward Engineeringのプロセスも詳細に書かれている。
その結果, 最適性能の達成と, 非正規環境での学習により, 不確実性に対するエージェントの堅牢性の向上(名目性能の低下)が可能であること, 提案手法を検証し, 今後の研究を奨励できることが示唆された。
関連論文リスト
- Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Accelerating Reinforcement Learning for Reaching using Continuous
Curriculum Learning [6.703429330486276]
我々は、強化学習(RL)訓練の加速と、多目標到達タスクの性能向上に重点を置いている。
具体的には、トレーニングプロセス中に要件を徐々に調整する精度ベースの継続的カリキュラム学習(PCCL)手法を提案する。
このアプローチは、シミュレーションと実世界のマルチゴールリーチ実験の両方において、ユニバーサルロボット5eを用いてテストされる。
論文 参考訳(メタデータ) (2020-02-07T10:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。