論文の概要: Acquiring Diverse Skills using Curriculum Reinforcement Learning with
Mixture of Experts
- arxiv url: http://arxiv.org/abs/2403.06966v1
- Date: Mon, 11 Mar 2024 17:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:46:20.463480
- Title: Acquiring Diverse Skills using Curriculum Reinforcement Learning with
Mixture of Experts
- Title(参考訳): カリキュラム強化学習と専門家の混合による多様なスキル獲得
- Authors: Onur Celik, Aleksandar Taranovic, Gerhard Neumann
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するためのRL手法としてtextbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
- 参考スコア(独自算出の注目度): 63.60212850116486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a powerful approach for acquiring a
good-performing policy. However, learning diverse skills is challenging in RL
due to the commonly used Gaussian policy parameterization. We propose
\textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL), an RL method for
learning diverse skills using Mixture of Experts, where each expert formalizes
a skill as a contextual motion primitive. Di-SkilL optimizes each expert and
its associate context distribution to a maximum entropy objective that
incentivizes learning diverse skills in similar contexts. The per-expert
context distribution enables automatic curricula learning, allowing each expert
to focus on its best-performing sub-region of the context space. To overcome
hard discontinuities and multi-modalities without any prior knowledge of the
environment's unknown context probability space, we leverage energy-based
models to represent the per-expert context distributions and demonstrate how we
can efficiently train them using the standard policy gradient objective. We
show on challenging robot simulation tasks that Di-SkilL can learn diverse and
performant skills.
- Abstract(参考訳): 強化学習(rl)は、優れたポリシーを得るための強力なアプローチである。
しかし、多種多様なスキルの学習は、一般的に使われているガウス政策パラメータ化のため、RLでは困難である。
そこで本稿では,エキスパートのミキチャーを用いて多種多様なスキルを学習するRL法である「textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL)」を提案する。
Di-SkilLは、各専門家とその関連するコンテキスト分布を最大エントロピー目標に最適化し、同様のコンテキストにおける多様なスキルの学習にインセンティブを与える。
専門家ごとのコンテキスト分布は自動カリキュラム学習を可能にし、各専門家はコンテキスト空間の最も優れたサブリージョンに集中することができる。
環境の未知の文脈確率空間を事前に知ることなく、ハード不連続やマルチモーダルを克服するために、エネルギーベースのモデルを活用して、専門家ごとのコンテキスト分布を表現し、標準ポリシー勾配目標を用いてそれらを効率的に訓練する方法を実証する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
関連論文リスト
- Robust Policy Learning via Offline Skill Diffusion [7.728587479013025]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - Customizable Combination of Parameter-Efficient Modules for Multi-Task
Learning [11.260650180067278]
タスク共通スキルとタスク特化スキルを組み合わせた,新しいアプローチを提案する。
スキル割り当て行列を共同で学習する。
以上の結果から, C-Polyは, 完全共有, タスク特化, スキル非差別性ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-06T02:47:56Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - C$\cdot$ASE: Learning Conditional Adversarial Skill Embeddings for
Physics-based Characters [49.83342243500835]
C$cdot$ASEは、物理系文字に対する条件付き適応スキル埋め込みを学習する効率的なフレームワークである。
C$cdot$ASEは、不均一なスキルモーションを、低レベル条件モデルのトレーニングのための均質なサンプルを含む別個のサブセットに分割する。
スキル条件の模倣学習は、訓練後のキャラクターのスキルを明確に制御する。
論文 参考訳(メタデータ) (2023-09-20T14:34:45Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Relative Variational Intrinsic Control [11.328970848714919]
Relative Variational Intrinsic Control(RVIC)は、エージェントが環境との関係をどのように変えるかで区別できる学習スキルを奨励します。
本稿では,階層的強化学習において,既存の手法によるスキルよりもRVICのスキルが有用であることを示す。
論文 参考訳(メタデータ) (2020-12-14T18:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。