論文の概要: Curriculum-based Sample Efficient Reinforcement Learning for Robust Stabilization of a Quadrotor
- arxiv url: http://arxiv.org/abs/2501.18490v1
- Date: Thu, 30 Jan 2025 17:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:17.689967
- Title: Curriculum-based Sample Efficient Reinforcement Learning for Robust Stabilization of a Quadrotor
- Title(参考訳): 擬ドロレータのロバスト安定化のためのカリキュラムベースサンプル強化学習
- Authors: Fausto Mauricio Lagos Suarez, Akshit Saradagi, Vidya Sumathy, Shruti Kotpaliwar, George Nikolakopoulos,
- Abstract要約: 本稿では,Quadrotor用の頑健な安定化コントローラを開発するためのカリキュラム学習手法を紹介する。
学習の目的は、ランダムな初期条件から望ましい位置を達成することである。
過渡的かつ定常的な性能仕様を取り入れた新たな付加的報酬関数を提案する。
- 参考スコア(独自算出の注目度): 3.932152385564876
- License:
- Abstract: This article introduces a curriculum learning approach to develop a reinforcement learning-based robust stabilizing controller for a Quadrotor that meets predefined performance criteria. The learning objective is to achieve desired positions from random initial conditions while adhering to both transient and steady-state performance specifications. This objective is challenging for conventional one-stage end-to-end reinforcement learning, due to the strong coupling between position and orientation dynamics, the complexity in designing and tuning the reward function, and poor sample efficiency, which necessitates substantial computational resources and leads to extended convergence times. To address these challenges, this work decomposes the learning objective into a three-stage curriculum that incrementally increases task complexity. The curriculum begins with learning to achieve stable hovering from a fixed initial condition, followed by progressively introducing randomization in initial positions, orientations and velocities. A novel additive reward function is proposed, to incorporate transient and steady-state performance specifications. The results demonstrate that the Proximal Policy Optimization (PPO)-based curriculum learning approach, coupled with the proposed reward structure, achieves superior performance compared to a single-stage PPO-trained policy with the same reward function, while significantly reducing computational resource requirements and convergence time. The curriculum-trained policy's performance and robustness are thoroughly validated under random initial conditions and in the presence of disturbances.
- Abstract(参考訳): 本稿では、事前定義された性能基準を満たすQuadrotorのための強化学習に基づく頑健な安定化コントローラを開発するためのカリキュラム学習手法を紹介する。
学習の目的は、過渡状態と定常状態の両方のパフォーマンス仕様に固執しながら、ランダムな初期条件から望ましい位置を達成することである。
この目的は、位置と向きのダイナミクスの強い結合、報酬関数の設計とチューニングの複雑さ、そしてかなりの計算資源を必要とするサンプル効率の低下により、従来の一段階から一段階の強化学習において困難である。
これらの課題に対処するため、本研究は学習目標を3段階のカリキュラムに分解し、タスクの複雑さを漸進的に増大させる。
カリキュラムは、固定された初期状態から安定したホバリングを達成するための学習から始まり、続いて、初期位置、向き、速度に徐々にランダム化を導入する。
過渡的かつ定常的な性能仕様を取り入れた新たな付加的報酬関数を提案する。
その結果,PPO(Proximal Policy Optimization)に基づくカリキュラム学習アプローチは,提案した報奨構造と相まって,計算資源の要求と収束時間を著しく低減しつつ,同一の報奨関数を持つ単一段階のPPO学習ポリシーよりも優れた性能が得られることを示した。
カリキュラム訓練された政策の性能と堅牢性は、ランダムな初期条件と乱れの存在下で完全に検証される。
関連論文リスト
- Beyond Any-Shot Adaptation: Predicting Optimization Outcome for Robustness Gains without Extra Pay [46.92143725900031]
本稿では,モデル予測タスクサンプリング(MPTS)を提案し,タスク空間と適応リスクランドスケープの関連性を確立する。
MPTSは、タスクエピソード情報を生成モデルで特徴付け、後部推論からタスク固有の適応リスク値を直接予測する。
MPTSはゼロショット、少数ショット、多ショット学習パラダイムにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-01-19T13:14:53Z) - Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment [7.477559660351106]
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。
本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T07:08:14Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。