論文の概要: Hierarchical Training of Deep Ensemble Policies for Reinforcement
Learning in Continuous Spaces
- arxiv url: http://arxiv.org/abs/2209.14488v1
- Date: Thu, 29 Sep 2022 00:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:28:14.662917
- Title: Hierarchical Training of Deep Ensemble Policies for Reinforcement
Learning in Continuous Spaces
- Title(参考訳): 連続空間における強化学習のためのディープアンサンブルポリシーの階層的学習
- Authors: Gang Chen and Victoria Huang
- Abstract要約: 本稿では,多段階統合手法に基づいて,基礎学習者のアンサンブルを学習するための新しい手法を提案する。
アンサンブルDRLのための新しい階層的トレーニングアルゴリズムは、明示的な階層間パラメータ共有を通じて、階層間協調を促進する。
また、このアルゴリズムは複数のベンチマークRL問題において、最先端のDRLアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 4.982806898121435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many actor-critic deep reinforcement learning (DRL) algorithms have achieved
cutting-edge performance in tackling various challenging reinforcement learning
(RL) problems, including complex control tasks with high-dimensional continuous
state and action spaces. Despite of widely reported success, existing DRL
algorithms often suffer from the ineffective exploration issue, resulting in
limited learning stability and performance. To address this limitation, several
ensemble DRL algorithms have been proposed recently to boost exploration and
stabilize the learning process. However, many existing ensemble algorithms are
designed to train each base learner individually without controlling explicitly
the collaboration among the trained base learners. In this paper, we propose a
new technique to train an ensemble of base learners based on the multi-step
integration methods. The new multi-step training technique enables us to
develop a new hierarchical training algorithm for ensemble DRL that promotes
inter-learner collaboration through explicit inter-learner parameter sharing.
The design of our new algorithm is verified theoretically. The algorithm is
also shown empirically to outperform several cutting-edge DRL algorithms on
multiple benchmark RL problems.
- Abstract(参考訳): 多くのアクター-批判的深層強化学習(drl)アルゴリズムは、高次元連続状態と動作空間を含む複雑な制御タスクを含む様々な挑戦的強化学習(rl)問題に取り組むことで最先端の性能を達成している。
広く報告された成功にもかかわらず、既存のDRLアルゴリズムは、しばしば非効率な探索問題に悩まされ、学習の安定性と性能が制限される。
この制限に対処するため、最近いくつかのアンサンブルDRLアルゴリズムが提案され、探索と学習過程の安定化が図られている。
しかし,既存のアンサンブルアルゴリズムの多くは,学習者同士の協調を明示的に制御することなく,個別に学習者を訓練するように設計されている。
本論文では,多段階統合手法に基づく基礎学習者のアンサンブルを学習するための新しい手法を提案する。
新しい多段階学習手法により,明示的なlearner間パラメータ共有によるlearner間協調を促進する,新しい階層型drl学習アルゴリズムの開発が可能となった。
この新しいアルゴリズムの設計は理論的に検証されている。
また、このアルゴリズムは複数のベンチマークRL問題において、最先端のDRLアルゴリズムよりも優れていることを示す。
関連論文リスト
- M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Keep Various Trajectories: Promoting Exploration of Ensemble Policies in
Continuous Control [17.64972760231609]
本研究ではTEENと呼ばれる新しいアンサンブルRLアルゴリズムを提案する。
TEENは、サブ政治のみを使用する場合と比較して、アンサンブル政策のサンプル多様性を高める。
TEENは、試験された代表環境において、ベースラインアンサンブルDRLアルゴリズムを平均41%向上させる。
論文 参考訳(メタデータ) (2023-10-17T10:40:05Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。