論文の概要: Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages
- arxiv url: http://arxiv.org/abs/2310.07418v3
- Date: Sun, 19 May 2024 19:04:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 00:20:28.766515
- Title: Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages
- Title(参考訳): 視覚強化学習における塑性の再考:データ,モジュール,訓練段階
- Authors: Guozheng Ma, Lu Li, Sen Zhang, Zixuan Liu, Zhen Wang, Yixin Chen, Li Shen, Xueqian Wang, Dacheng Tao,
- Abstract要約: ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率のよい視覚強化学習に不可欠である。
本稿では,批評家の可塑性レベルに基づいてリプレイ率を動的に調整するAdaptive RRを提案する。
- 参考スコア(独自算出の注目度): 56.98243487769916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Plasticity, the ability of a neural network to evolve with new data, is crucial for high-performance and sample-efficient visual reinforcement learning (VRL). Although methods like resetting and regularization can potentially mitigate plasticity loss, the influences of various components within the VRL framework on the agent's plasticity are still poorly understood. In this work, we conduct a systematic empirical exploration focusing on three primary underexplored facets and derive the following insightful conclusions: (1) data augmentation is essential in maintaining plasticity; (2) the critic's plasticity loss serves as the principal bottleneck impeding efficient training; and (3) without timely intervention to recover critic's plasticity in the early stages, its loss becomes catastrophic. These insights suggest a novel strategy to address the high replay ratio (RR) dilemma, where exacerbated plasticity loss hinders the potential improvements of sample efficiency brought by increased reuse frequency. Rather than setting a static RR for the entire training process, we propose Adaptive RR, which dynamically adjusts the RR based on the critic's plasticity level. Extensive evaluations indicate that Adaptive RR not only avoids catastrophic plasticity loss in the early stages but also benefits from more frequent reuse in later phases, resulting in superior sample efficiency.
- Abstract(参考訳): ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率の良い視覚強化学習(VRL)に不可欠である。
リセットや正規化のような手法は可塑性損失を緩和する可能性があるが、VRLフレームワーク内の様々な成分がエージェントの可塑性に与える影響はいまだに理解されていない。
本研究では,(1)データの増大が塑性維持に不可欠であること,(2)批判者の塑性損失が効率的なトレーニングを妨げる主要なボトルネックとなること,(3)批判者の塑性を早期に回復するための時間的介入がなければ,その損失は破滅的になる,という,3つの主要な調査に焦点をあてた系統的な実証調査を行った。
これらの知見は, 高再生率 (RR) ジレンマに対処するための新たな戦略を示唆している。
トレーニングプロセス全体に対して静的RRを設定するのではなく、批判者の可塑性レベルに基づいてRRを動的に調整するAdaptive RRを提案する。
広範囲な評価は、適応RRが早期の破滅的な可塑性損失を回避できるだけでなく、後期のより頻繁な再利用の恩恵を受け、より優れた試料効率をもたらすことを示している。
関連論文リスト
- Plasticity Loss in Deep Reinforcement Learning: A Survey [15.525552360867367]
塑性は深層強化学習(RL)エージェントにとって不可欠である。
可塑性が失われると、データ分布の変化を考慮に入れないため、エージェントのパフォーマンスが低下する。
可塑性の喪失は、トレーニング不安定性、スケール失敗、過大評価バイアス、探検不足など、深いRLを悩ませる多くの問題と結びつくことができる。
論文 参考訳(メタデータ) (2024-11-07T16:13:54Z) - Self-Normalized Resets for Plasticity in Continual Learning [6.5990719141691825]
SNR(Self-Normalized Resets)は、ニューロンの重みをリセットすることで可塑性損失を緩和する適応アルゴリズムである。
我々は,SNRが競合するアルゴリズムと比較して常に優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-26T06:47:13Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文 参考訳(メタデータ) (2023-06-19T06:14:51Z) - Deep Reinforcement Learning with Plasticity Injection [37.19742321534183]
深層強化学習(RL)ネットワークでは、可塑性が徐々に低下することを示す証拠がある。
可塑性注入はパラメータの数を変更せずにネットワーク可塑性を増加させる。
可塑性注入は 代替方法に比べて より強い性能を得る
論文 参考訳(メタデータ) (2023-05-24T20:41:35Z) - Understanding and Preventing Capacity Loss in Reinforcement Learning [28.52122927103544]
我々は、非定常予測対象が深層RLエージェントの学習進行を阻止できるメカニズムを同定する。
キャパシティ損失は様々なRLエージェントや環境で発生し、特にスパース・リワードタスクのパフォーマンスにダメージを与えている。
論文 参考訳(メタデータ) (2022-04-20T15:55:15Z) - Towards Lifelong Learning of End-to-end ASR [81.15661413476221]
lifelong learningは、マシンが新しいデータセットから新しいタスクをシーケンシャルに学習できるようにすることを目的としている。
WERの28.7%の相対的な減少は、3つの非常に異なるベンチマークコーポラを順次学習する場合の微調整ベースラインと比較して達成された。
論文 参考訳(メタデータ) (2021-04-04T13:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。