論文の概要: Don't Forget the Critic: Value-Based Data Rehearsal for Multi-Cyclic Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.22454v1
- Date: Thu, 21 May 2026 13:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.268185
- Title: Don't Forget the Critic: Value-Based Data Rehearsal for Multi-Cyclic Continual Reinforcement Learning
- Title(参考訳): 批判を忘れてはいけない:マルチサイクル連続強化学習のための価値に基づくデータリハーサル
- Authors: Benjamin Poole, Andrew Quinn, Li Yang, Minwoo Lee,
- Abstract要約: 多サイクル設定におけるQ値正規化を用いたディープQ-Networksのデータリハーサルについて検討する。
本稿では,(1)学習中に格納されたQ値の動的収集と更新を行う連続データリハーサルと,(2)最初のタスクの直後に適用される"No-Wait"正規化の2つの簡単な修正を提案する。
- 参考スコア(独自算出の注目度): 5.317802569892165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data rehearsal has emerged as a leading approach for mitigating catastrophic forgetting in Continual Reinforcement Learning (CRL). However, existing work remains confined to policy gradient frameworks, regularizing only actors due to the performance degradation incurred by critic regularization. This actor-centric approach overlooks the potential of data rehearsal for value function approximation. Moreover, existing evaluations in CRL rarely consider multi-cyclic environments where task sequences repeat, a critical real-world scenario that exacerbates forgetting and plasticity. We investigate data rehearsal for Deep Q-Networks using Q-value regularization in multi-cyclic settings and propose Qreg+NWLU which introduces two simple modifications: (1) continuous data rehearsal that dynamically collects and updates stored Q-values throughout training, and (2) "No-Wait" regularization that applies immediately rather than after the first task. Together, these modifications yield improvements in learning efficiency, forgetting mitigation, and knowledge transfer over Qreg and conventional CRL methods within value function approximation settings.
- Abstract(参考訳): データリハーサルは,CRL(Continuous Reinforcement Learning)における破滅的な忘れを緩和するための主要なアプローチとして浮上している。
しかし、既存の作業はポリシーグラデーションのフレームワークに限られており、批判の正規化によって生じるパフォーマンス劣化のためにアクターのみを正規化している。
このアクター中心のアプローチは、値関数近似のためのデータリハーサルの可能性を見落としている。
さらに、CRLの既存の評価では、タスクシーケンスが繰り返される多サイクル環境を考えることは稀であり、これは、忘れることと可塑性を悪化させる重要な現実シナリオである。
マルチサイクル設定におけるQ値正規化を用いたディープQ-Networksのデータリハーサルについて検討し、(1)トレーニングを通して格納されたQ値を動的に収集・更新する連続データリハーサル、(2)タスク後ではなく即座に適用する「非待機」正規化の2つの簡単な修正を提案する。
これらの修正により、値関数近似設定におけるQregおよび従来のCRLメソッドによる学習効率の向上、緩和の回避、知識伝達が実現される。
関連論文リスト
- Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Value Function Initialization for Knowledge Transfer and Jump-start in Deep Reinforcement Learning [0.0]
本稿では,価値関数の初期化を深層強化学習に適用するDQInitを紹介する。
DQInitは、以前に解決されたタスクから抽出されたコンパクトQ値を転送可能な知識ベースとして再利用する。
知識に基づくメカニズムを用いて、これらの伝達された値を未探索領域にソフトに統合し、徐々にエージェントの学習された推定値にシフトする。
論文 参考訳(メタデータ) (2025-08-12T18:32:08Z) - Sample Compression for Self Certified Continual Learning [4.354838732412981]
連続学習アルゴリズムは、一連のタスクから学習することを目的としており、トレーニング分布を静止しないものにしている。
提案手法はCoP2L(Continual Pick-to-Learn)と呼ばれ,各タスクの最も代表的なサンプルを効率的に保持することができる。
論文 参考訳(メタデータ) (2025-03-13T16:05:56Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。