論文の概要: Online Optimization of Curriculum Learning Schedules using Evolutionary Optimization
- arxiv url: http://arxiv.org/abs/2408.06068v1
- Date: Mon, 12 Aug 2024 11:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 13:23:51.960454
- Title: Online Optimization of Curriculum Learning Schedules using Evolutionary Optimization
- Title(参考訳): 進化的最適化を用いたカリキュラム学習スケジューリングのオンライン最適化
- Authors: Mohit Jiwatode, Leon Schlecht, Alexander Dockhorn,
- Abstract要約: カリキュラム学習(CL)とローリング水平進化アルゴリズム(RHEA)を組み合わせたRHEA CLを提案する。
RHEA CLは、次の訓練エポックの出発点として、最高の成績のカリキュラムを選択する。
他のカリキュラムのスケジュールと比較すると、RHEA CLは最終強化学習(RL)エージェントの性能改善をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RHEA CL, which combines Curriculum Learning (CL) with Rolling Horizon Evolutionary Algorithms (RHEA) to automatically produce effective curricula during the training of a reinforcement learning agent. RHEA CL optimizes a population of curricula, using an evolutionary algorithm, and selects the best-performing curriculum as the starting point for the next training epoch. Performance evaluations are conducted after every curriculum step in all environments. We evaluate the algorithm on the \textit{DoorKey} and \textit{DynamicObstacles} environments within the Minigrid framework. It demonstrates adaptability and consistent improvement, particularly in the early stages, while reaching a stable performance later that is capable of outperforming other curriculum learners. In comparison to other curriculum schedules, RHEA CL has been shown to yield performance improvements for the final Reinforcement learning (RL) agent at the cost of additional evaluation during training.
- Abstract(参考訳): 本稿では,RHEA CL と RHEA を組み合わせることで,強化学習エージェントの訓練中に有効なカリキュラムを自動生成する手法を提案する。
RHEA CLは進化的アルゴリズムを用いてキュリキュラの個体群を最適化し、次の訓練エポックの出発点として最高の成績のカリキュラムを選択する。
パフォーマンス評価は、すべての環境におけるカリキュラムの各ステップ後に行われる。
このアルゴリズムはMinigrid フレームワーク内の \textit{DoorKey} および \textit{DynamicObstacles} 環境上で評価する。
適応性と一貫した改善を示し、特に初期の段階では、後で安定したパフォーマンスに到達し、他のカリキュラム学習者よりも優れたパフォーマンスを発揮する。
他のカリキュラムのスケジュールと比較して、RHEA CLは、トレーニング中に追加評価を犠牲にして、最終強化学習(RL)エージェントの性能改善をもたらすことが示されている。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Improving Environment Robustness of Deep Reinforcement Learning
Approaches for Autonomous Racing Using Bayesian Optimization-based Curriculum
Learning [4.32009010195029]
堅牢性を達成するための適切なカリキュラムを選択することは、ユーザ中心のプロセスであることを示す。
本研究では,ベイズ最適化を用いたカリキュラム回帰関数の確率論的推論が,堅牢なカリキュラムを見つける上で有望な手法であることを示す。
ベイズ最適化を用いたカリキュラムは,障害物回避を伴う自律走行領域において,バニラディープRLエージェントや手動カリキュラムよりも優れることを示した。
論文 参考訳(メタデータ) (2023-12-16T23:11:52Z) - Tracking Control for a Spherical Pendulum via Curriculum Reinforcement
Learning [27.73555826776087]
強化学習(RL)は、データから純粋に非自明なロボット制御法を学習することを可能にする。
本稿では,大規模並列化シミュレーションに基づいてRLでキュリキュラを自動構築するアルゴリズムを提案する。
非線形トラッキングタスクに対する状態推定と制御を共同で学習するカリキュラムRLの可能性を示す。
論文 参考訳(メタデータ) (2023-09-25T12:48:47Z) - Reward-Machine-Guided, Self-Paced Reinforcement Learning [30.42334205249944]
報奨機による自己評価強化学習アルゴリズムを開発した。
提案アルゴリズムは,既存のベースラインが意味のある進歩を達成できない場合でも,最適な動作を確実に達成する。
また、カリキュラムの長さを減らし、カリキュラム生成プロセスのばらつきを最大4分の1まで減らします。
論文 参考訳(メタデータ) (2023-05-25T22:13:37Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z) - Accelerating Reinforcement Learning for Reaching using Continuous
Curriculum Learning [6.703429330486276]
我々は、強化学習(RL)訓練の加速と、多目標到達タスクの性能向上に重点を置いている。
具体的には、トレーニングプロセス中に要件を徐々に調整する精度ベースの継続的カリキュラム学習(PCCL)手法を提案する。
このアプローチは、シミュレーションと実世界のマルチゴールリーチ実験の両方において、ユニバーサルロボット5eを用いてテストされる。
論文 参考訳(メタデータ) (2020-02-07T10:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。