論文の概要: Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and
Skills
- arxiv url: http://arxiv.org/abs/2312.06518v1
- Date: Mon, 11 Dec 2023 16:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:54:39.836562
- Title: Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and
Skills
- Title(参考訳): gaussianタスクコンテキストとスキルを用いたメタ強化学習の分離
- Authors: Hongcai He, Anjie Zhu, Shuang Liang, Feiyu Chen, Jie Shao
- Abstract要約: 本稿では,DCMRL(Decoupled Meta-Reinforcement Learning)というフレームワークを提案する。
DCMRLは、同じタスク内で同様のタスクコンテキストを取り出し、異なるタスクの異なるタスクコンテキストをプッシュします。
実験により、DCMRLは従来のメタRL法よりも有効であり、より一般化可能な事前経験を持つことが示された。
- 参考スコア(独自算出の注目度): 17.666749042008178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline meta-reinforcement learning (meta-RL) methods, which adapt to unseen
target tasks with prior experience, are essential in robot control tasks.
Current methods typically utilize task contexts and skills as prior experience,
where task contexts are related to the information within each task and skills
represent a set of temporally extended actions for solving subtasks. However,
these methods still suffer from limited performance when adapting to unseen
target tasks, mainly because the learned prior experience lacks generalization,
i.e., they are unable to extract effective prior experience from meta-training
tasks by exploration and learning of continuous latent spaces. We propose a
framework called decoupled meta-reinforcement learning (DCMRL), which (1)
contrastively restricts the learning of task contexts through pulling in
similar task contexts within the same task and pushing away different task
contexts of different tasks, and (2) utilizes a Gaussian quantization
variational autoencoder (GQ-VAE) for clustering the Gaussian distributions of
the task contexts and skills respectively, and decoupling the exploration and
learning processes of their spaces. These cluster centers which serve as
representative and discrete distributions of task context and skill are stored
in task context codebook and skill codebook, respectively. DCMRL can acquire
generalizable prior experience and achieve effective adaptation to unseen
target tasks during the meta-testing phase. Experiments in the navigation and
robot manipulation continuous control tasks show that DCMRL is more effective
than previous meta-RL methods with more generalizable prior experience.
- Abstract(参考訳): ロボット制御タスクでは,目標とする課題に先行経験で適応するオフラインメタ強化学習(meta-rl)手法が不可欠である。
現在の手法では、タスクコンテキストとスキルを事前の経験として使用し、タスクコンテキストは各タスク内の情報と関連付けられ、スキルはサブタスクを解決するために時間的に拡張されたアクションのセットを表す。
しかし、これらの手法は、学習された事前経験が一般化を欠いていること、すなわち、連続的潜在空間の探索と学習によってメタトレーニングタスクから効果的な事前経験を抽出することができないことなどから、対象とするタスクに適応する際の性能が限られている。
本研究では,(1)同一タスク内の類似タスクコンテキストを抽出し,異なるタスクコンテキストの異なるタスクコンテキストをプッシュすることで,タスクコンテキストの学習を対照的に制限し,(2)タスクコンテキストとスキルのガウス分布をクラスタリングするガウス量子化変分自動エンコーダ(GQ-VAE)を用いて,それらの空間の探索と学習プロセスをデカップリングする,DCMRL(Decoupled Meta-Reinforcement Learning)というフレームワークを提案する。
これらのクラスタセンターは、それぞれタスクコンテキストコードブックとスキルコードブックに、タスクコンテキストとスキルの個別分布として機能する。
DCMRLは、一般化可能な事前経験を取得し、メタテストフェーズ中に見つからない目標タスクに効果的に適応することができる。
ナビゲーションおよびロボット操作の連続制御タスクの実験により、DCMRLは従来のメタRL法よりもより一般化可能な事前経験を持つことが示された。
関連論文リスト
- Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - Continual Vision-based Reinforcement Learning with Group Symmetries [18.7526848176769]
我々は,COVERSと呼ばれるグループ対称性を認識する,ユニークな連続視覚に基づく強化学習手法を提案する。
その結果, COVERS は各グループにタスクを正確に割り当て, 一般化能力において既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-21T23:41:02Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - CoMPS: Continual Meta Policy Search [113.33157585319906]
逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の継続的な学習や外部のメタ強化手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-12-08T18:53:08Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。