論文の概要: Stable Continual Reinforcement Learning via Diffusion-based Trajectory Replay
- arxiv url: http://arxiv.org/abs/2411.10809v1
- Date: Sat, 16 Nov 2024 14:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:32:28.925521
- Title: Stable Continual Reinforcement Learning via Diffusion-based Trajectory Replay
- Title(参考訳): 拡散に基づく軌道リプレイによる安定的連続強化学習
- Authors: Feng Chen, Fuguang Han, Cong Guan, Lei Yuan, Zhilong Zhang, Yang Yu, Zongzhang Zhang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、エージェントに一連の逐次的に提示された意思決定タスクに対処する能力を持たせることを目的としている。
本稿では,各タスクの高復帰軌道分布を記憶するために拡散モデルを用いた連続RLアルゴリズムDISTRを提案する。
過去の全てのデータを毎回再生する非現実性を考えると、重要なタスクの軌道上のリプレイを優先する優先順位付け機構が提案されている。
- 参考スコア(独自算出の注目度): 28.033367285923465
- License:
- Abstract: Given the inherent non-stationarity prevalent in real-world applications, continual Reinforcement Learning (RL) aims to equip the agent with the capability to address a series of sequentially presented decision-making tasks. Within this problem setting, a pivotal challenge revolves around \textit{catastrophic forgetting} issue, wherein the agent is prone to effortlessly erode the decisional knowledge associated with past encountered tasks when learning the new one. In recent progresses, the \textit{generative replay} methods have showcased substantial potential by employing generative models to replay data distribution of past tasks. Compared to storing the data from past tasks directly, this category of methods circumvents the growing storage overhead and possible data privacy concerns. However, constrained by the expressive capacity of generative models, existing \textit{generative replay} methods face challenges in faithfully reconstructing the data distribution of past tasks, particularly in scenarios with a myriad of tasks or high-dimensional data. Inspired by the success of diffusion models in various generative tasks, this paper introduces a novel continual RL algorithm DISTR (Diffusion-based Trajectory Replay) that employs a diffusion model to memorize the high-return trajectory distribution of each encountered task and wakeups these distributions during the policy learning on new tasks. Besides, considering the impracticality of replaying all past data each time, a prioritization mechanism is proposed to prioritize the trajectory replay of pivotal tasks in our method. Empirical experiments on the popular continual RL benchmark \texttt{Continual World} demonstrate that our proposed method obtains a favorable balance between \textit{stability} and \textit{plasticity}, surpassing various existing continual RL baselines in average success rate.
- Abstract(参考訳): 実世界のアプリケーションで一般的な非定常性を考えると、連続強化学習(Reinforcement Learning, RL)は、エージェントに一連の逐次的に提示された意思決定タスクに対処する能力を持たせることを目的としている。
この問題設定の中では、重要な課題が‘textit{catastrophic forgetting} 問題を中心に展開され、エージェントは新しい問題を学ぶ際に、過去の遭遇したタスクに関連する決定的知識を無駄に省く傾向にある。
近年の進歩では、過去のタスクのデータ分散を再生するために生成モデルを用いることで、textit{generative replay} 法が有意義な可能性を実証している。
過去のタスクからのデータを直接保存するのと比べて、このカテゴリはストレージのオーバーヘッドの増加とデータプライバシの懸念を回避している。
しかし、生成モデルの表現能力に制約され、既存の \textit{generative replay} メソッドは、過去のタスク、特に無数のタスクや高次元データを持つシナリオにおいて、過去のタスクのデータ分散を忠実に再構築する際の課題に直面している。
本稿では,様々な生成タスクにおける拡散モデルの成功にインスパイアされた拡散モデルであるDISTR(Diffusion-based Trajectory Replay)を提案する。
さらに,過去のデータを毎回再生する非現実性を考慮し,本手法における重要タスクの軌道再生を優先する優先順位付け機構を提案する。
一般的な連続 RL ベンチマークである texttt{Continual World} の実証実験により,提案手法は,既往の連続 RL ベースラインを平均成功率で上回って, \textit{stability} と \textit{plasticity} との良好なバランスを得ることを示した。
関連論文リスト
- Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era [59.279784235147254]
このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
新たなイメージは、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを考える余地があることを示唆している。
論文 参考訳(メタデータ) (2024-06-13T12:51:22Z) - Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay [16.269591842495892]
本研究では, 逐次的オフラインタスクに取り組むために, 前方転送を容易にし, 破滅的な忘れを緩和する実践的パラダイムについて検討する。
本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-16T15:39:11Z) - t-DGR: A Trajectory-Based Deep Generative Replay Method for Continual Learning in Decision Making [34.02510598090704]
本稿では,意思決定タスクにおける継続学習のための,シンプルでスケーラブルで非自己回帰的手法を提案する。
提案手法を連続世界ベンチマークで評価し,本手法が最先端の性能を実現することを確認した。
論文 参考訳(メタデータ) (2024-01-04T23:44:35Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Continual Few-shot Relation Learning via Embedding Space Regularization
and Data Augmentation [4.111899441919165]
従来のタスク知識の破滅的な忘れを回避しつつ,ラベル付きデータが少ない新しい関係パターンを学習する必要がある。
埋め込み空間の正規化とデータ拡張に基づく新しい手法を提案する。
提案手法は,新たな数発タスクに一般化し,リレーショナル埋め込みに対する追加制約を課し,自己管理的なデータ追加を行うことにより,過去のタスクの破滅的な忘れを回避している。
論文 参考訳(メタデータ) (2022-03-04T05:19:09Z) - Task-agnostic Continual Learning with Hybrid Probabilistic Models [75.01205414507243]
分類のための連続学習のためのハイブリッド生成識別手法であるHCLを提案する。
フローは、データの配布を学習し、分類を行い、タスクの変更を特定し、忘れることを避けるために使用される。
本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。
論文 参考訳(メタデータ) (2021-06-24T05:19:26Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Posterior Meta-Replay for Continual Learning [4.319932092720977]
連続学習(CL)アルゴリズムは最近、i.i.dでトレーニングする必要性を克服しようとするため、多くの注目を集めている。
未知のターゲットデータ分布からのサンプル。
ベイズ的視点を取り入れ,タスク固有の後方分布を継続的に学習することによって,cl問題に取り組むための原理的な方法を検討した。
論文 参考訳(メタデータ) (2021-03-01T17:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。