論文の概要: Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay
- arxiv url: http://arxiv.org/abs/2404.10662v1
- Date: Tue, 16 Apr 2024 15:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:24:42.587204
- Title: Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay
- Title(参考訳): 拡散に基づく二重生成再生による連続的オフライン強化学習
- Authors: Jinmei Liu, Wenbin Li, Xiangyu Yue, Shilin Zhang, Chunlin Chen, Zhi Wang,
- Abstract要約: 本研究では, 逐次的オフラインタスクに取り組むために, 前方転送を容易にし, 破滅的な忘れを緩和する実践的パラダイムについて検討する。
本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.269591842495892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study continual offline reinforcement learning, a practical paradigm that facilitates forward transfer and mitigates catastrophic forgetting to tackle sequential offline tasks. We propose a dual generative replay framework that retains previous knowledge by concurrent replay of generated pseudo-data. First, we decouple the continual learning policy into a diffusion-based generative behavior model and a multi-head action evaluation model, allowing the policy to inherit distributional expressivity for encompassing a progressive range of diverse behaviors. Second, we train a task-conditioned diffusion model to mimic state distributions of past tasks. Generated states are paired with corresponding responses from the behavior generator to represent old tasks with high-fidelity replayed samples. Finally, by interleaving pseudo samples with real ones of the new task, we continually update the state and behavior generators to model progressively diverse behaviors, and regularize the multi-head critic via behavior cloning to mitigate forgetting. Experiments demonstrate that our method achieves better forward transfer with less forgetting, and closely approximates the results of using previous ground-truth data due to its high-fidelity replay of the sample space. Our code is available at \href{https://github.com/NJU-RL/CuGRO}{https://github.com/NJU-RL/CuGRO}.
- Abstract(参考訳): 連続的オフライン強化学習(Continuous offline reinforcement learning)は、前向きの転送を容易にし、連続的なオフラインタスクに取り組む破滅的な忘れを緩和する実践パラダイムである。
本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。
まず、継続学習政策を拡散に基づく生成行動モデルと多頭部行動評価モデルに分離し、多様な行動の範囲を包含する分布表現性を継承する。
第2に,過去のタスクの状態分布を模倣するタスク条件拡散モデルを訓練する。
生成された状態は、動作生成器からの対応する応答と組み合わせて、高忠実度再生されたサンプルで古いタスクを表現する。
最後に, 疑似サンプルを新たなタスクの実際のものとインターリーブすることにより, 状態と行動生成器を継続的に更新し, 段階的に多様な振る舞いをモデル化し, 動作クローニングにより多面的批判を正則化し, 忘れを緩和する。
実験により, 提案手法は, より少ない精度で前向き転送を実現し, 試料空間の高忠実な再生により, 過去の地中構造データを用いた結果と密に近似できることを示した。
我々のコードは \href{https://github.com/NJU-RL/CuGRO}{https://github.com/NJU-RL/CuGRO} で入手できる。
関連論文リスト
- Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - OER: Offline Experience Replay for Continual Offline Reinforcement Learning [25.985985377992034]
エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T08:16:44Z) - PCR: Proxy-based Contrastive Replay for Online Class-Incremental
Continual Learning [16.67238259139417]
既存のリプレイベースのメソッドは、プロキシベースのあるいはコントラストベースのリプレイ方式で古いデータの一部を保存し、再生することで、この問題を効果的に緩和する。
プロキシベースコントラストリプレイ(PCR)と呼ばれる新しいリプレイ方式を提案する。
論文 参考訳(メタデータ) (2023-04-10T06:35:19Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Connective Reconstruction-based Novelty Detection [3.7706789983985303]
ディープラーニングにより、説明できないサンプルを含む実世界のデータを分析できるようになった。
GANベースのアプローチは、分散フィッティングを行う能力のため、この問題に対処するために広く利用されている。
本稿では,GANモデルの制約を補うために複雑化を伴わない,シンプルで効率的な再構成手法を提案する。
論文 参考訳(メタデータ) (2022-10-25T11:09:39Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong
Learning in Task-Oriented Dialogue [80.05509768165135]
生成的再生法は、過去の知識と生成された擬似サンプルを統合するために広く用いられている。
既存の生成的再生法の多くは、モデルを制御するために単一のタスク固有のトークンのみを使用する。
本稿では,タスクの統計を取り入れて生成的再生を向上させるために,生涯学習のための新しい条件付きVAEを提案する。
論文 参考訳(メタデータ) (2022-10-14T13:12:14Z) - Outcome-Guided Counterfactuals for Reinforcement Learning Agents from a
Jointly Trained Generative Latent Space [0.0]
本稿では, 強化学習剤(RL)の新規な生成法を提案する。
提案手法では,エージェントの動作に関連する観測および結果変数に関する情報を共同で符号化する潜在空間の学習に,変分オートエンコーダを用いる。
論文 参考訳(メタデータ) (2022-07-15T19:09:54Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。