論文の概要: A Forget-and-Grow Strategy for Deep Reinforcement Learning Scaling in Continuous Control
- arxiv url: http://arxiv.org/abs/2507.02712v1
- Date: Thu, 03 Jul 2025 15:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.499238
- Title: A Forget-and-Grow Strategy for Deep Reinforcement Learning Scaling in Continuous Control
- Title(参考訳): 継続的制御における深層強化学習のためのターゲット・アンド・グロー戦略
- Authors: Zilin Kang, Chenyuan Hu, Yu Luo, Zhecheng Yuan, Ruijie Zheng, Huazhe Xu,
- Abstract要約: 本稿では2つのメカニズムを導入した新しい深層RLアルゴリズムであるForget and Grow (FoG)を提案する。
第一に、経験の再現(ER Decay)は「初期の経験を忘れること」であり、初期経験の影響を徐々に減らし、記憶のバランスを保ちます。
第2に、Network Expansionは、既存のデータのパターンを活用するエージェントの能力を高める“神経能力の増大”だ。
- 参考スコア(独自算出の注目度): 24.96744955563452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning for continuous control has recently achieved impressive progress. However, existing methods often suffer from primacy bias, a tendency to overfit early experiences stored in the replay buffer, which limits an RL agent's sample efficiency and generalizability. In contrast, humans are less susceptible to such bias, partly due to infantile amnesia, where the formation of new neurons disrupts early memory traces, leading to the forgetting of initial experiences. Inspired by this dual processes of forgetting and growing in neuroscience, in this paper, we propose Forget and Grow (FoG), a new deep RL algorithm with two mechanisms introduced. First, Experience Replay Decay (ER Decay) "forgetting early experience", which balances memory by gradually reducing the influence of early experiences. Second, Network Expansion, "growing neural capacity", which enhances agents' capability to exploit the patterns of existing data by dynamically adding new parameters during training. Empirical results on four major continuous control benchmarks with more than 40 tasks demonstrate the superior performance of FoG against SoTA existing deep RL algorithms, including BRO, SimBa, and TD-MPC2.
- Abstract(参考訳): 継続的制御のための深層強化学習は、最近目覚ましい進歩を遂げた。
しかし、既存の手法では、リプレイバッファに格納された初期の経験に過度に適合する傾向があるため、RLエージェントのサンプル効率と一般化性が制限される。
対照的に、新しいニューロンの形成が初期の記憶の痕跡を乱し、初期の経験を忘れてしまう幼児の記憶障害によって、人間はそのようなバイアスの影響を受けにくくなる。
本稿では,神経科学におけるこの二重過程に着想を得て,2つのメカニズムが導入された新しい深部RLアルゴリズムであるForget and Grow(FoG)を提案する。
第一に、経験の再現(ER Decay)は「初期の経験を忘れること」であり、初期経験の影響を徐々に減らし、記憶のバランスを保ちます。
第2に、Network Expansionは、トレーニング中に新しいパラメータを動的に追加することで、既存のデータパターンを活用するエージェントの能力を向上する。
40以上のタスクを持つ4つの主要な連続制御ベンチマークの実証結果は、BRO、SimBa、TD-MPC2を含むSoTAのディープRLアルゴリズムに対するFoGの優れた性能を示している。
関連論文リスト
- Learning Human Cognitive Appraisal Through Reinforcement Memory Unit [63.83306892013521]
逐次評価タスクにおける人間の認知評価の効果を生かしたリカレントニューラルネットワークのためのメモリ強調機構を提案する。
記憶増強機構を2つの正および負の強化記憶とともに評価状態を含む強化記憶ユニット(RMU)として概念化する。
論文 参考訳(メタデータ) (2022-08-06T08:56:55Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - The Primacy Bias in Deep Reinforcement Learning [10.691354079742016]
この研究は、深層強化学習(RL)アルゴリズムの共通の欠陥を特定する。
徐々に成長するデータセットのトレーニングのため、ディープRLエージェントは、以前の経験に過度に適合するリスクを負う。
本稿では, エージェントの一部を定期的にリセットすることで, プライマリーバイアスに対処する, 単純だが一般適用可能な機構を提案する。
論文 参考訳(メタデータ) (2022-05-16T16:48:36Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Deep Reinforcement Learning with Quantum-inspired Experience Replay [6.833294755109369]
経験的リプレイを伴う深部強化学習(DRL)のために,量子計算にインスパイアされた新しいトレーニングパラダイムを提案する。
量子インスパイアされた体験リプレイ(DRL-QER)を用いた深層強化学習は、各体験の複雑さと再生時間に応じてリプレイバッファから経験を適応的に選択する(トランジションとも呼ばれる)。
Atari 2600ゲームに関する実験結果は、DRL-QERがDRL-PERやDCRLなどの最先端のアルゴリズムを上回り、トレーニング効率が向上したことを示している。
論文 参考訳(メタデータ) (2021-01-06T13:52:04Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。