論文の概要: Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts
- arxiv url: http://arxiv.org/abs/2403.06966v2
- Date: Mon, 10 Jun 2024 14:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:53:58.329645
- Title: Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts
- Title(参考訳): カリキュラム強化学習とエキスパートの混在による異種スキルの獲得
- Authors: Onur Celik, Aleksandar Taranovic, Gerhard Neumann,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
- 参考スコア(独自算出の注目度): 58.220879689376744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a powerful approach for acquiring a good-performing policy. However, learning diverse skills is challenging in RL due to the commonly used Gaussian policy parameterization. We propose \textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL\footnote{Videos and code are available on the project webpage: \url{https://alrhub.github.io/di-skill-website/}}), an RL method for learning diverse skills using Mixture of Experts, where each expert formalizes a skill as a contextual motion primitive. Di-SkilL optimizes each expert and its associate context distribution to a maximum entropy objective that incentivizes learning diverse skills in similar contexts. The per-expert context distribution enables automatic curricula learning, allowing each expert to focus on its best-performing sub-region of the context space. To overcome hard discontinuities and multi-modalities without any prior knowledge of the environment's unknown context probability space, we leverage energy-based models to represent the per-expert context distributions and demonstrate how we can efficiently train them using the standard policy gradient objective. We show on challenging robot simulation tasks that Di-SkilL can learn diverse and performant skills.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
しかし、多種多様なスキルの学習は、一般的に使われているガウス政策パラメータ化のため、RLでは困難である。
筆者らは,Mixture of Expertsを用いて多種多様なスキルを学習するRL法である \textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL\footnote{Videos and code are available on the project webpage: \url{https://alrhub.github.io/di-skill-website/}})を提案する。
Di-SkilLは、各専門家とその関連するコンテキスト分布を最大エントロピー目標に最適化し、同様のコンテキストにおける多様なスキルの学習にインセンティブを与える。
専門家ごとのコンテキスト分布は、自動カリキュラム学習を可能にし、各専門家は、コンテキスト空間の最も優れたサブリージョンに集中することができる。
環境の未知の文脈確率空間に関する事前の知識を必要とせずに、厳しい不連続性やマルチモダリティを克服するために、我々は、エネルギーモデルを利用して、専門家ごとの文脈分布を表現し、標準方針勾配の目的を用いて効率的に学習する方法を実証する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
関連論文リスト
- Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。
そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。
提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-25T03:07:56Z) - Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - Customizable Combination of Parameter-Efficient Modules for Multi-Task
Learning [11.260650180067278]
タスク共通スキルとタスク特化スキルを組み合わせた,新しいアプローチを提案する。
スキル割り当て行列を共同で学習する。
以上の結果から, C-Polyは, 完全共有, タスク特化, スキル非差別性ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-06T02:47:56Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Bayesian Nonparametrics for Offline Skill Discovery [19.28178596044852]
オフライン強化学習と模倣学習における最近の研究は、専門家の一連の軌道からの技術発見のためのいくつかの手法を提案している。
まず、変分推論と連続緩和の進歩を生かしたオプションのオフライン学習法を提案する。
我々は、我々の非パラメトリック拡張が他のスキルフレームワークにどのように適用できるかを示し、我々の手法が最先端のオフラインスキル学習アルゴリズムより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2022-02-09T19:01:01Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。