Fugu-MT 論文翻訳(概要): Curriculum-based Sample Efficient Reinforcement Learning for Robust Stabilization of a Quadrotor

論文の概要: Curriculum-based Sample Efficient Reinforcement Learning for Robust Stabilization of a Quadrotor

arxiv url: http://arxiv.org/abs/2501.18490v1
Date: Thu, 30 Jan 2025 17:05:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.257956
Title: Curriculum-based Sample Efficient Reinforcement Learning for Robust Stabilization of a Quadrotor
Title（参考訳）: 擬ドロレータのロバスト安定化のためのカリキュラムベースサンプル強化学習
Authors: Fausto Mauricio Lagos Suarez, Akshit Saradagi, Vidya Sumathy, Shruti Kotpaliwar, George Nikolakopoulos,
Abstract要約: 本稿では,Quadrotor用の頑健な安定化コントローラを開発するためのカリキュラム学習手法を紹介する。学習の目的は、ランダムな初期条件から望ましい位置を達成することである。過渡的かつ定常的な性能仕様を取り入れた新たな付加的報酬関数を提案する。
参考スコア（独自算出の注目度）: 3.932152385564876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This article introduces a curriculum learning approach to develop a reinforcement learning-based robust stabilizing controller for a Quadrotor that meets predefined performance criteria. The learning objective is to achieve desired positions from random initial conditions while adhering to both transient and steady-state performance specifications. This objective is challenging for conventional one-stage end-to-end reinforcement learning, due to the strong coupling between position and orientation dynamics, the complexity in designing and tuning the reward function, and poor sample efficiency, which necessitates substantial computational resources and leads to extended convergence times. To address these challenges, this work decomposes the learning objective into a three-stage curriculum that incrementally increases task complexity. The curriculum begins with learning to achieve stable hovering from a fixed initial condition, followed by progressively introducing randomization in initial positions, orientations and velocities. A novel additive reward function is proposed, to incorporate transient and steady-state performance specifications. The results demonstrate that the Proximal Policy Optimization (PPO)-based curriculum learning approach, coupled with the proposed reward structure, achieves superior performance compared to a single-stage PPO-trained policy with the same reward function, while significantly reducing computational resource requirements and convergence time. The curriculum-trained policy's performance and robustness are thoroughly validated under random initial conditions and in the presence of disturbances.
Abstract（参考訳）: 本稿では、事前定義された性能基準を満たすQuadrotorのための強化学習に基づく頑健な安定化コントローラを開発するためのカリキュラム学習手法を紹介する。学習の目的は、過渡状態と定常状態の両方のパフォーマンス仕様に固執しながら、ランダムな初期条件から望ましい位置を達成することである。この目的は、位置と向きのダイナミクスの強い結合、報酬関数の設計とチューニングの複雑さ、そしてかなりの計算資源を必要とするサンプル効率の低下により、従来の一段階から一段階の強化学習において困難である。これらの課題に対処するため、本研究は学習目標を3段階のカリキュラムに分解し、タスクの複雑さを漸進的に増大させる。カリキュラムは、固定された初期状態から安定したホバリングを達成するための学習から始まり、続いて、初期位置、向き、速度に徐々にランダム化を導入する。過渡的かつ定常的な性能仕様を取り入れた新たな付加的報酬関数を提案する。その結果,PPO(Proximal Policy Optimization)に基づくカリキュラム学習アプローチは,提案した報奨構造と相まって,計算資源の要求と収束時間を著しく低減しつつ,同一の報奨関数を持つ単一段階のPPO学習ポリシーよりも優れた性能が得られることを示した。カリキュラム訓練された政策の性能と堅牢性は、ランダムな初期条件と乱れの存在下で完全に検証される。

関連論文リスト

COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-06T07:05:18Z)
Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments [78.15330971155778]
Posterior and Diversity Synergized Task Smpling (PDTS) は、高速かつ堅牢なシーケンシャルな意思決定を実現するための、実装が容易な方法である。 PDTSは、堅牢なアクティブタスクサンプリングの可能性を解き、挑戦的なタスクにおけるゼロショットおよび少数ショット適応ロバスト性を大幅に改善し、特定のシナリオ下での学習プロセスを加速する。
論文参考訳（メタデータ） (2025-04-27T07:27:17Z)
Closing the Intent-to-Behavior Gap via Fulfillment Priority Logic [1.4542411354617986]
本稿では,FPL(Fulfillment Priority Logic)を構築する目的達成の概念について述べる。われわれの新しいバランスポリシー勾配アルゴリズムは、FPL仕様を利用して、ソフトアクター批評家と比較して最大500%のサンプル効率を達成する。
論文参考訳（メタデータ） (2025-03-04T18:45:20Z)
Model Predictive Task Sampling for Efficient and Robust Adaptation [46.92143725900031]
本稿では,タスク空間と適応リスクランドスケープを橋渡しするフレームワークとして,モデル予測タスクサンプリング(MPTS)を紹介する。 MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。 MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文参考訳（メタデータ） (2025-01-19T13:14:53Z)
Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment [7.477559660351106]
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-31T07:08:14Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。 DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文参考訳（メタデータ） (2023-11-24T10:14:05Z)
Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文参考訳（メタデータ） (2023-11-02T16:45:25Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文参考訳（メタデータ） (2021-06-22T15:19:48Z)
Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は直立位置での力学系の教師なし安定化を可能にする本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文参考訳（メタデータ） (2020-07-14T21:10:16Z)
Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文参考訳（メタデータ） (2020-07-03T05:06:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。