Fugu-MT 論文翻訳(概要): Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay

論文の概要: Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay

arxiv url: http://arxiv.org/abs/2404.10662v1
Date: Tue, 16 Apr 2024 15:39:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 16:24:42.587204
Title: Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay
Title（参考訳）: 拡散に基づく二重生成再生による連続的オフライン強化学習
Authors: Jinmei Liu, Wenbin Li, Xiangyu Yue, Shilin Zhang, Chunlin Chen, Zhi Wang,
Abstract要約: 本研究では, 逐次的オフラインタスクに取り組むために, 前方転送を容易にし, 破滅的な忘れを緩和する実践的パラダイムについて検討する。本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。
参考スコア（独自算出の注目度）: 16.269591842495892
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study continual offline reinforcement learning, a practical paradigm that facilitates forward transfer and mitigates catastrophic forgetting to tackle sequential offline tasks. We propose a dual generative replay framework that retains previous knowledge by concurrent replay of generated pseudo-data. First, we decouple the continual learning policy into a diffusion-based generative behavior model and a multi-head action evaluation model, allowing the policy to inherit distributional expressivity for encompassing a progressive range of diverse behaviors. Second, we train a task-conditioned diffusion model to mimic state distributions of past tasks. Generated states are paired with corresponding responses from the behavior generator to represent old tasks with high-fidelity replayed samples. Finally, by interleaving pseudo samples with real ones of the new task, we continually update the state and behavior generators to model progressively diverse behaviors, and regularize the multi-head critic via behavior cloning to mitigate forgetting. Experiments demonstrate that our method achieves better forward transfer with less forgetting, and closely approximates the results of using previous ground-truth data due to its high-fidelity replay of the sample space. Our code is available at \href{https://github.com/NJU-RL/CuGRO}{https://github.com/NJU-RL/CuGRO}.
Abstract（参考訳）: 連続的オフライン強化学習(Continuous offline reinforcement learning)は、前向きの転送を容易にし、連続的なオフラインタスクに取り組む破滅的な忘れを緩和する実践パラダイムである。本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。まず、継続学習政策を拡散に基づく生成行動モデルと多頭部行動評価モデルに分離し、多様な行動の範囲を包含する分布表現性を継承する。第2に,過去のタスクの状態分布を模倣するタスク条件拡散モデルを訓練する。生成された状態は、動作生成器からの対応する応答と組み合わせて、高忠実度再生されたサンプルで古いタスクを表現する。最後に, 疑似サンプルを新たなタスクの実際のものとインターリーブすることにより, 状態と行動生成器を継続的に更新し, 段階的に多様な振る舞いをモデル化し, 動作クローニングにより多面的批判を正則化し, 忘れを緩和する。実験により, 提案手法は, より少ない精度で前向き転送を実現し, 試料空間の高忠実な再生により, 過去の地中構造データを用いた結果と密に近似できることを示した。我々のコードは \href{https://github.com/NJU-RL/CuGRO}{https://github.com/NJU-RL/CuGRO} で入手できる。

関連論文リスト

Improving Generalization in Heterogeneous Federated Continual Learning via Spatio-Temporal Gradient Matching with Prototypical Coreset [4.1751318268724384]
本稿では、クライアントが無関係あるいは矛盾するデータやタスクを持つ、より実践的で挑戦的なFederated Continual Learning設定について検討する。既存のFCLアプローチでは、しばしば生成的リプレイを使用して、以前のタスクの擬似データセットを作成する。これらの課題に対処するため,ネットワークフリーなプロトタイプ (STAMP) を用いたspatio-Temporal grAdient Matching という新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-22T18:26:51Z)
Stable Continual Reinforcement Learning via Diffusion-based Trajectory Replay [28.033367285923465]
強化学習(Reinforcement Learning, RL)は、エージェントに一連の逐次的に提示された意思決定タスクに対処する能力を持たせることを目的としている。本稿では,各タスクの高復帰軌道分布を記憶するために拡散モデルを用いた連続RLアルゴリズムDISTRを提案する。過去の全てのデータを毎回再生する非現実性を考えると、重要なタスクの軌道上のリプレイを優先する優先順位付け機構が提案されている。
論文参考訳（メタデータ） (2024-11-16T14:03:23Z)
Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文参考訳（メタデータ） (2024-10-23T17:59:52Z)
Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。近年、拡散モデルはGANの非敵対的な代替品として出現している。提案手法は, 様々な連続制御問題に対して, GANスタイルの模倣学習ベースラインより優れていることを示す。
論文参考訳（メタデータ） (2024-10-17T17:59:25Z)
Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-04T08:21:47Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文参考訳（メタデータ） (2023-11-02T16:45:25Z)
Connective Reconstruction-based Novelty Detection [3.7706789983985303]
ディープラーニングにより、説明できないサンプルを含む実世界のデータを分析できるようになった。 GANベースのアプローチは、分散フィッティングを行う能力のため、この問題に対処するために広く利用されている。本稿では,GANモデルの制約を補うために複雑化を伴わない,シンプルで効率的な再構成手法を提案する。
論文参考訳（メタデータ） (2022-10-25T11:09:39Z)
Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong Learning in Task-Oriented Dialogue [80.05509768165135]
生成的再生法は、過去の知識と生成された擬似サンプルを統合するために広く用いられている。既存の生成的再生法の多くは、モデルを制御するために単一のタスク固有のトークンのみを使用する。本稿では,タスクの統計を取り入れて生成的再生を向上させるために,生涯学習のための新しい条件付きVAEを提案する。
論文参考訳（メタデータ） (2022-10-14T13:12:14Z)
Outcome-Guided Counterfactuals for Reinforcement Learning Agents from a Jointly Trained Generative Latent Space [0.0]
本稿では, 強化学習剤(RL)の新規な生成法を提案する。提案手法では,エージェントの動作に関連する観測および結果変数に関する情報を共同で符号化する潜在空間の学習に,変分オートエンコーダを用いる。
論文参考訳（メタデータ） (2022-07-15T19:09:54Z)
Automatic Recall Machines: Internal Replay, Continual Learning and the Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文参考訳（メタデータ） (2020-06-22T15:07:06Z)
Generative Feature Replay with Orthogonal Weight Modification for Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文参考訳（メタデータ） (2020-05-07T13:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。