論文の概要: A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.10787v1
- Date: Sun, 22 May 2022 09:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:01:06.477324
- Title: A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning
- Title(参考訳): スケーラブルな生涯強化学習のためのロバストなタスクモデルのdirichletプロセス混合
- Authors: Zhi Wang, Chunlin Chen, Daoyi Dong
- Abstract要約: 強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 11.076005074172516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning (RL) algorithms are achieving state-of-the-art
performance in various challenging tasks, they can easily encounter
catastrophic forgetting or interference when faced with lifelong streaming
information. In the paper, we propose a scalable lifelong RL method that
dynamically expands the network capacity to accommodate new knowledge while
preventing past memories from being perturbed. We use a Dirichlet process
mixture to model the non-stationary task distribution, which captures task
relatedness by estimating the likelihood of task-to-cluster assignments and
clusters the task models in a latent space. We formulate the prior distribution
of the mixture as a Chinese restaurant process (CRP) that instantiates new
mixture components as needed. The update and expansion of the mixture are
governed by the Bayesian non-parametric framework with an expectation
maximization (EM) procedure, which dynamically adapts the model complexity
without explicit task boundaries or heuristics. Moreover, we use the domain
randomization technique to train robust prior parameters for the initialization
of each task model in the mixture, thus the resulting model can better
generalize and adapt to unseen tasks. With extensive experiments conducted on
robot navigation and locomotion domains, we show that our method successfully
facilitates scalable lifelong RL and outperforms relevant existing methods.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは、様々な課題において最先端のパフォーマンスを達成する一方で、生涯にわたるストリーミング情報に直面すると、破滅的な忘れや干渉に容易に遭遇する。
本稿では,過去の記憶の混乱を防止しつつ,ネットワーク容量を動的に拡張して新たな知識に適応させるスケーラブルな長寿命rl手法を提案する。
我々はdirichletプロセス混合物を用いて非定常タスク分散をモデル化し、タスク間割り当ての確率を推定し、タスクモデルを潜在空間にクラスタ化する。
新しい混合成分を必要に応じてインスタンス化する中国レストランプロセス(crp)として、混合物の事前分布を定式化する。
混合の更新と拡張は、明示的なタスク境界やヒューリスティックスなしでモデルの複雑さを動的に適応する期待最大化(EM)手順を備えたベイズ非パラメトリックフレームワークによって管理される。
さらに、ドメインランダム化手法を用いて、各タスクモデルの初期化のためのロバストな事前パラメータを混合でトレーニングすることにより、結果のモデルをより一般化し、目に見えないタスクに適応させることができる。
ロボットナビゲーションと移動領域に関する広範な実験により,本手法は拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
関連論文リスト
- Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Task-agnostic Continual Learning with Hybrid Probabilistic Models [75.01205414507243]
分類のための連続学習のためのハイブリッド生成識別手法であるHCLを提案する。
フローは、データの配布を学習し、分類を行い、タスクの変更を特定し、忘れることを避けるために使用される。
本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。
論文 参考訳(メタデータ) (2021-06-24T05:19:26Z) - Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of
Gaussian Processes [25.513074215377696]
本稿では,連続的なオンラインモデルに基づく強化学習手法を提案する。
未知のタスク境界を持つタスク非依存の問題を解決するためには、事前トレーニングを必要としない。
実験では,本手法は非定常タスクにおける代替手法よりも優れている。
論文 参考訳(メタデータ) (2020-06-19T23:52:45Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。