論文の概要: Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training
- arxiv url: http://arxiv.org/abs/2209.14488v2
- Date: Tue, 2 May 2023 23:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 18:41:22.343400
- Title: Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training
- Title(参考訳): 連続空間におけるエンサンブル強化学習-政策訓練のための階層的マルチステップアプローチ
- Authors: Gang Chen and Victoria Huang
- Abstract要約: 本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 4.982806898121435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actor-critic deep reinforcement learning (DRL) algorithms have recently
achieved prominent success in tackling various challenging reinforcement
learning (RL) problems, particularly complex control tasks with
high-dimensional continuous state and action spaces. Nevertheless, existing
research showed that actor-critic DRL algorithms often failed to explore their
learning environments effectively, resulting in limited learning stability and
performance. To address this limitation, several ensemble DRL algorithms have
been proposed lately to boost exploration and stabilize the learning process.
However, most of existing ensemble algorithms do not explicitly train all base
learners towards jointly optimizing the performance of the ensemble. In this
paper, we propose a new technique to train an ensemble of base learners based
on an innovative multi-step integration method. This training technique enables
us to develop a new hierarchical learning algorithm for ensemble DRL that
effectively promotes inter-learner collaboration through stable inter-learner
parameter sharing. The design of our new algorithm is verified theoretically.
The algorithm is also shown empirically to outperform several state-of-the-art
DRL algorithms on multiple benchmark RL problems.
- Abstract(参考訳): アクター-クリティック深層強化学習(drl)アルゴリズムは、近年、様々な挑戦的強化学習(rl)問題、特に高次元連続状態と動作空間を持つ複雑な制御タスクに取り組むことで、顕著な成功を収めている。
それにもかかわらず、既存の研究では、アクター批判型DRLアルゴリズムは学習環境を効果的に探索することができず、学習安定性と性能が制限された。
この制限に対処するため、近年、探索の強化と学習過程の安定化のためにいくつかのアンサンブルDRLアルゴリズムが提案されている。
しかし、既存のアンサンブルアルゴリズムのほとんどは、アンサンブルの性能を最適化するために、すべてのベース学習者を明示的に訓練していない。
本稿では,革新的な多段階統合法に基づき,基礎学習者のアンサンブルを学習する新しい手法を提案する。
この学習手法により,安定なlearner間パラメータ共有によるlearner間コラボレーションを効果的に促進する,新しい階層学習アルゴリズムの開発が可能となった。
この新しいアルゴリズムの設計は理論的に検証されている。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
関連論文リスト
- M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Keep Various Trajectories: Promoting Exploration of Ensemble Policies in
Continuous Control [17.64972760231609]
本研究ではTEENと呼ばれる新しいアンサンブルRLアルゴリズムを提案する。
TEENは、サブ政治のみを使用する場合と比較して、アンサンブル政策のサンプル多様性を高める。
TEENは、試験された代表環境において、ベースラインアンサンブルDRLアルゴリズムを平均41%向上させる。
論文 参考訳(メタデータ) (2023-10-17T10:40:05Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。