論文の概要: t-DGR: A Trajectory-Based Deep Generative Replay Method for Continual
Learning in Decision Making
- arxiv url: http://arxiv.org/abs/2401.02576v1
- Date: Thu, 4 Jan 2024 23:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 16:17:36.320203
- Title: t-DGR: A Trajectory-Based Deep Generative Replay Method for Continual
Learning in Decision Making
- Title(参考訳): t-DGR:意思決定における連続学習のための軌道ベース深層生成再生法
- Authors: William Yue, Bo Liu, Peter Stone
- Abstract要約: 本稿では,意思決定タスクにおける継続学習のための,シンプルでスケーラブルで非自己回帰的手法を提案する。
提案手法を連続世界ベンチマークで評価し,本手法が最先端の性能を実現することを確認した。
- 参考スコア(独自算出の注目度): 38.240809300953146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep generative replay has emerged as a promising approach for continual
learning in decision-making tasks. This approach addresses the problem of
catastrophic forgetting by leveraging the generation of trajectories from
previously encountered tasks to augment the current dataset. However, existing
deep generative replay methods for continual learning rely on autoregressive
models, which suffer from compounding errors in the generated trajectories. In
this paper, we propose a simple, scalable, and non-autoregressive method for
continual learning in decision-making tasks using a generative model that
generates task samples conditioned on the trajectory timestep. We evaluate our
method on Continual World benchmarks and find that our approach achieves
state-of-the-art performance on the average success rate metric among continual
learning methods. Code is available at https://github.com/WilliamYue37/t-DGR .
- Abstract(参考訳): ディープジェネレーティブリプレイは、意思決定タスクにおける継続的な学習に有望なアプローチとして現れてきた。
このアプローチは、現在のデータセットを補強するために、以前に遭遇したタスクからの軌跡の生成を活用することで、破滅的な忘れる問題に対処する。
しかし、既存の連続学習のための深層生成的再生法は、生成した軌跡の複雑な誤りに悩まされる自己回帰モデルに依存している。
本稿では,軌道上の時間ステップに条件付きタスクサンプルを生成する生成モデルを用いて,意思決定タスクにおける継続学習のためのシンプルでスケーラブルで非自己回帰的手法を提案する。
提案手法は連続世界ベンチマークで評価し, 連続学習手法の平均成功率測定値から最先端のパフォーマンスを達成できることを確認した。
コードはhttps://github.com/WilliamYue37/t-DGRで入手できる。
関連論文リスト
- Stable Continual Reinforcement Learning via Diffusion-based Trajectory Replay [28.033367285923465]
強化学習(Reinforcement Learning, RL)は、エージェントに一連の逐次的に提示された意思決定タスクに対処する能力を持たせることを目的としている。
本稿では,各タスクの高復帰軌道分布を記憶するために拡散モデルを用いた連続RLアルゴリズムDISTRを提案する。
過去の全てのデータを毎回再生する非現実性を考えると、重要なタスクの軌道上のリプレイを優先する優先順位付け機構が提案されている。
論文 参考訳(メタデータ) (2024-11-16T14:03:23Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Continual Learning with Dirichlet Generative-based Rehearsal [22.314195832409755]
本稿では,タスク指向対話システムのための新しい生成型リハーサル戦略であるDirichlet Continual Learningを紹介する。
また,ロジットに基づく堅牢な知識蒸留法であるJensen-Shannon Knowledge Distillation (JSKD)についても紹介する。
本研究は,本手法の有効性を実証し,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2023-09-13T12:30:03Z) - Mode-Aware Continual Learning for Conditional Generative Adversarial
Networks [27.28511396131235]
本稿では,条件付き生成対向ネットワークのための新しい連続学習手法を提案する。
まず、ジェネレータは、その後の再生のための既存のモードのサンプルを生成する。
判別器はモード類似度尺度を計算するのに使用される。
目標モードのラベルを生成し、このセット内のラベルの重み付き平均として付与する。
論文 参考訳(メタデータ) (2023-05-19T03:00:31Z) - DLCFT: Deep Linear Continual Fine-Tuning for General Incremental
Learning [29.80680408934347]
事前学習した表現からモデルを連続的に微調整するインクリメンタルラーニングのための代替フレームワークを提案する。
本手法は, ニューラルネットワークの線形化手法を利用して, 単純かつ効果的な連続学習を行う。
本手法は,データ増分,タスク増分およびクラス増分学習問題において,一般的な連続学習設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-08-17T06:58:14Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - A Neural Dirichlet Process Mixture Model for Task-Free Continual
Learning [48.87397222244402]
タスクフリー連続学習のための拡張型アプローチを提案する。
我々のモデルは、識別的タスクと生成的タスクの両方に対してタスクフリー連続学習を成功させる。
論文 参考訳(メタデータ) (2020-01-03T02:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。