Fugu-MT 論文翻訳(概要): Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts

論文の概要: Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts

arxiv url: http://arxiv.org/abs/2403.06966v1
Date: Mon, 11 Mar 2024 17:49:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 17:46:20.463480
Title: Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts
Title（参考訳）: カリキュラム強化学習と専門家の混合による多様なスキル獲得
Authors: Onur Celik, Aleksandar Taranovic, Gerhard Neumann
Abstract要約: 強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。多様なスキルを学習するためのRL手法としてtextbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
参考スコア（独自算出の注目度）: 63.60212850116486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) is a powerful approach for acquiring a good-performing policy. However, learning diverse skills is challenging in RL due to the commonly used Gaussian policy parameterization. We propose \textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL), an RL method for learning diverse skills using Mixture of Experts, where each expert formalizes a skill as a contextual motion primitive. Di-SkilL optimizes each expert and its associate context distribution to a maximum entropy objective that incentivizes learning diverse skills in similar contexts. The per-expert context distribution enables automatic curricula learning, allowing each expert to focus on its best-performing sub-region of the context space. To overcome hard discontinuities and multi-modalities without any prior knowledge of the environment's unknown context probability space, we leverage energy-based models to represent the per-expert context distributions and demonstrate how we can efficiently train them using the standard policy gradient objective. We show on challenging robot simulation tasks that Di-SkilL can learn diverse and performant skills.
Abstract（参考訳）: 強化学習(rl)は、優れたポリシーを得るための強力なアプローチである。しかし、多種多様なスキルの学習は、一般的に使われているガウス政策パラメータ化のため、RLでは困難である。そこで本稿では,エキスパートのミキチャーを用いて多種多様なスキルを学習するRL法である「textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL)」を提案する。 Di-SkilLは、各専門家とその関連するコンテキスト分布を最大エントロピー目標に最適化し、同様のコンテキストにおける多様なスキルの学習にインセンティブを与える。専門家ごとのコンテキスト分布は自動カリキュラム学習を可能にし、各専門家はコンテキスト空間の最も優れたサブリージョンに集中することができる。環境の未知の文脈確率空間を事前に知ることなく、ハード不連続やマルチモーダルを克服するために、エネルギーベースのモデルを活用して、専門家ごとのコンテキスト分布を表現し、標準ポリシー勾配目標を用いてそれらを効率的に訓練する方法を実証する。本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。

関連論文リスト

GIFT: Games as Informal Training for Generalizable LLMs [64.47890325824763]
大規模言語モデル(LLM)は「実践的な知恵」と一般化可能な知性に苦しむ。このギャップは、目標指向の指示よりもインタラクティブなフィードバックに長けている非公式な学習の欠如から生じる。 LLMの非公式学習におけるゲーム処理環境として,本質的な報酬信号と抽象化された複雑性を活用することを提案する。
論文参考訳（メタデータ） (2026-01-09T08:42:44Z)
Learning Parameterized Skills from Demonstrations [24.77023692578625]
DEPSは、専門家によるデモンストレーションからパラメータ化されたスキルを発見するためのエンドツーエンドのアルゴリズムである。本手法は,各段階において適切な個別スキルと連続パラメータを選択するメタ政治と協調してパラメータ化スキルポリシーを学習する。
論文参考訳（メタデータ） (2025-10-28T06:08:25Z)
Goal-Oriented Skill Abstraction for Offline Multi-Task Reinforcement Learning [25.18006424626525]
GO-Skillは、再利用可能なスキルを抽出し、活用し、知識伝達とタスクパフォーマンスを向上させるために設計された新しいアプローチである。本稿では,目標志向のスキル抽出プロセスを通じて再利用可能なスキルを明らかにし,ベクトル量子化を活用して個別のスキルライブラリを構築する。我々はこれらのスキルを階層的な政策学習を用いて統合し、個別のスキルを動的に編成して特定のタスクを遂行するハイレベルなポリシーの構築を可能にする。
論文参考訳（メタデータ） (2025-07-09T07:54:49Z)
Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning [10.598207472087578]
強化学習(Reinforcement Learning, RL)の手法は通常、新しいタスクをゼロから学習する。この研究は、潜在的な原始的なスキルモーションを未知の特徴を持つ非パラメトリックな特性を持つものとしてモデル化する手法を導入する。非パラメトリックモデル、特にDirichlet Process Mixturesは、出生とマージによって強化され、スキルの多様な性質を効果的に捉えるための事前トレーニングに使用される。
論文参考訳（メタデータ） (2025-03-27T20:43:36Z)
Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。 LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文参考訳（メタデータ） (2024-10-15T00:41:18Z)
Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文参考訳（メタデータ） (2024-05-25T03:07:56Z)
Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。 DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-01T02:00:44Z)
Customizable Combination of Parameter-Efficient Modules for Multi-Task Learning [11.260650180067278]
タスク共通スキルとタスク特化スキルを組み合わせた,新しいアプローチを提案する。スキル割り当て行列を共同で学習する。以上の結果から, C-Polyは, 完全共有, タスク特化, スキル非差別性ベースラインよりも優れていた。
論文参考訳（メタデータ） (2023-12-06T02:47:56Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文参考訳（メタデータ） (2022-12-08T22:34:59Z)
Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。 IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文参考訳（メタデータ） (2022-10-14T00:04:49Z)
Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文参考訳（メタデータ） (2022-10-06T11:06:39Z)
Bayesian Nonparametrics for Offline Skill Discovery [19.28178596044852]
オフライン強化学習と模倣学習における最近の研究は、専門家の一連の軌道からの技術発見のためのいくつかの手法を提案している。まず、変分推論と連続緩和の進歩を生かしたオプションのオフライン学習法を提案する。我々は、我々の非パラメトリック拡張が他のスキルフレームワークにどのように適用できるかを示し、我々の手法が最先端のオフラインスキル学習アルゴリズムより優れていることを実証的に示す。
論文参考訳（メタデータ） (2022-02-09T19:01:01Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-01-06T12:57:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。