論文の概要: Lifelong Incremental Reinforcement Learning with Online Bayesian
Inference
- arxiv url: http://arxiv.org/abs/2007.14196v2
- Date: Fri, 12 Feb 2021 10:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 01:36:00.148715
- Title: Lifelong Incremental Reinforcement Learning with Online Bayesian
Inference
- Title(参考訳): オンラインベイズ推論を用いた生涯強化学習
- Authors: Zhi Wang, Chunlin Chen, Daoyi Dong
- Abstract要約: 長期にわたる強化学習エージェントは、環境の変化に応じて、その振る舞いを漸進的に適応させることである。
動的環境への効率的な生涯適応のための新しいインクリメンタルアルゴリズムであるLifeLong Reinforcement Learning (LLIRL)を提案する。
- 参考スコア(独自算出の注目度): 11.076005074172516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central capability of a long-lived reinforcement learning (RL) agent is to
incrementally adapt its behavior as its environment changes, and to
incrementally build upon previous experiences to facilitate future learning in
real-world scenarios. In this paper, we propose LifeLong Incremental
Reinforcement Learning (LLIRL), a new incremental algorithm for efficient
lifelong adaptation to dynamic environments. We develop and maintain a library
that contains an infinite mixture of parameterized environment models, which is
equivalent to clustering environment parameters in a latent space. The prior
distribution over the mixture is formulated as a Chinese restaurant process
(CRP), which incrementally instantiates new environment models without any
external information to signal environmental changes in advance. During
lifelong learning, we employ the expectation maximization (EM) algorithm with
online Bayesian inference to update the mixture in a fully incremental manner.
In EM, the E-step involves estimating the posterior expectation of
environment-to-cluster assignments, while the M-step updates the environment
parameters for future learning. This method allows for all environment models
to be adapted as necessary, with new models instantiated for environmental
changes and old models retrieved when previously seen environments are
encountered again. Experiments demonstrate that LLIRL outperforms relevant
existing methods, and enables effective incremental adaptation to various
dynamic environments for lifelong learning.
- Abstract(参考訳): 長期強化学習(RL)エージェントの中枢的な能力は、環境の変化に応じてその振る舞いを漸進的に適応させることであり、現実のシナリオにおける将来の学習を促進するために、以前の経験を段階的に構築することである。
本稿では,動的環境への効率的な生涯適応のための新たなインクリメンタルアルゴリズムであるLifeLong Incremental Reinforcement Learning (LLIRL)を提案する。
我々は、潜在空間におけるクラスタリング環境パラメータに相当するパラメータ化された環境モデルの無限混合を含むライブラリを開発し、維持する。
混合物上の事前分布を中国レストランプロセス(crp)として定式化し、環境変化を事前に知らせる外部情報なしで新たな環境モデルを段階的にインスタンス化する。
生涯学習中は,オンラインベイズ推定を用いた期待最大化(em)アルゴリズムを用いて,混合の完全漸進的更新を行う。
EMでは、Eステップは環境からクラスタへの割り当ての後方予測を推定し、Mステップは将来の学習のための環境パラメータを更新する。
この方法では、すべての環境モデルを必要に応じて適応させ、新しいモデルが環境変化のためにインスタンス化され、以前の環境が再び遭遇したときに古いモデルが検索される。
LLIRLは既存の手法よりも優れており、生涯学習のための様々な動的環境への効果的な漸進的適応を可能にする。
関連論文リスト
- Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
動的適応を誘導するクラス感受性選択的スキャン機構を開発した。
miniImageNet, CUB-200, CIFAR-100 の実験により,我々のフレームワークは既存の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Meta-Reinforcement Learning Using Model Parameters [8.442084903594528]
本稿では,モデルパラメータを用いた強化学習エージェントRAMPを提案する。
RAMPは2つのフェーズで構築される。第1フェーズでは、マルチ環境パラメータ化動的モデルが学習される。
第2フェーズでは、モデルフリー強化学習エージェントのマルチ環境ポリシーのコンテキストとして、動的モデルのモデルパラメータが使用される。
論文 参考訳(メタデータ) (2022-10-27T14:54:06Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Instance Weighted Incremental Evolution Strategies for Reinforcement
Learning in Dynamic Environments [11.076005074172516]
本研究では,動的環境における進化戦略(ES)の体系的漸進学習手法を提案する。
目標は、環境が変わるたびに、学習済みのポリシーを新しいポリシーに漸進的に調整することだ。
本稿では、動的環境への高速な学習適応を実現するため、RLドメインのためのスケーラブルなESアルゴリズムのファミリーを紹介する。
論文 参考訳(メタデータ) (2020-10-09T14:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。