Fugu-MT 論文翻訳(概要): Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages

論文の概要: Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages

arxiv url: http://arxiv.org/abs/2310.07418v3
Date: Sun, 19 May 2024 19:04:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 00:20:28.766515
Title: Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages
Title（参考訳）: 視覚強化学習における塑性の再考:データ,モジュール,訓練段階
Authors: Guozheng Ma, Lu Li, Sen Zhang, Zixuan Liu, Zhen Wang, Yixin Chen, Li Shen, Xueqian Wang, Dacheng Tao,
Abstract要約: ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率のよい視覚強化学習に不可欠である。本稿では,批評家の可塑性レベルに基づいてリプレイ率を動的に調整するAdaptive RRを提案する。
参考スコア（独自算出の注目度）: 56.98243487769916
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Plasticity, the ability of a neural network to evolve with new data, is crucial for high-performance and sample-efficient visual reinforcement learning (VRL). Although methods like resetting and regularization can potentially mitigate plasticity loss, the influences of various components within the VRL framework on the agent's plasticity are still poorly understood. In this work, we conduct a systematic empirical exploration focusing on three primary underexplored facets and derive the following insightful conclusions: (1) data augmentation is essential in maintaining plasticity; (2) the critic's plasticity loss serves as the principal bottleneck impeding efficient training; and (3) without timely intervention to recover critic's plasticity in the early stages, its loss becomes catastrophic. These insights suggest a novel strategy to address the high replay ratio (RR) dilemma, where exacerbated plasticity loss hinders the potential improvements of sample efficiency brought by increased reuse frequency. Rather than setting a static RR for the entire training process, we propose Adaptive RR, which dynamically adjusts the RR based on the critic's plasticity level. Extensive evaluations indicate that Adaptive RR not only avoids catastrophic plasticity loss in the early stages but also benefits from more frequent reuse in later phases, resulting in superior sample efficiency.
Abstract（参考訳）: ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率の良い視覚強化学習(VRL)に不可欠である。リセットや正規化のような手法は可塑性損失を緩和する可能性があるが、VRLフレームワーク内の様々な成分がエージェントの可塑性に与える影響はいまだに理解されていない。本研究では,(1)データの増大が塑性維持に不可欠であること,(2)批判者の塑性損失が効率的なトレーニングを妨げる主要なボトルネックとなること,(3)批判者の塑性を早期に回復するための時間的介入がなければ,その損失は破滅的になる,という,3つの主要な調査に焦点をあてた系統的な実証調査を行った。これらの知見は, 高再生率 (RR) ジレンマに対処するための新たな戦略を示唆している。トレーニングプロセス全体に対して静的RRを設定するのではなく、批判者の可塑性レベルに基づいてRRを動的に調整するAdaptive RRを提案する。広範囲な評価は、適応RRが早期の破滅的な可塑性損失を回避できるだけでなく、後期のより頻繁な再利用の恩恵を受け、より優れた試料効率をもたらすことを示している。

関連論文リスト

Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文参考訳（メタデータ） (2025-08-04T10:08:10Z)
Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.67854581396578]
Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。 Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
論文参考訳（メタデータ） (2025-04-24T12:32:13Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文参考訳（メタデータ） (2025-01-24T20:39:38Z)
Plasticity Loss in Deep Reinforcement Learning: A Survey [15.525552360867367]
塑性は深層強化学習(RL)エージェントにとって不可欠である。可塑性が失われると、データ分布の変化を考慮に入れないため、エージェントのパフォーマンスが低下する。可塑性の喪失は、トレーニング不安定性、スケール失敗、過大評価バイアス、探検不足など、深いRLを悩ませる多くの問題と結びつくことができる。
論文参考訳（メタデータ） (2024-11-07T16:13:54Z)
Self-Normalized Resets for Plasticity in Continual Learning [6.5990719141691825]
SNR(Self-Normalized Resets)は、ニューロンの重みをリセットすることで可塑性損失を緩和する適応アルゴリズムである。我々は,SNRが競合するアルゴリズムと比較して常に優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2024-10-26T06:47:13Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文参考訳（メタデータ） (2024-02-29T00:02:33Z)
Retrosynthesis prediction enhanced by in-silico reaction data augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。 3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-31T07:40:37Z)
PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文参考訳（メタデータ） (2023-06-19T06:14:51Z)
Deep Reinforcement Learning with Plasticity Injection [37.19742321534183]
深層強化学習(RL)ネットワークでは、可塑性が徐々に低下することを示す証拠がある。可塑性注入はパラメータの数を変更せずにネットワーク可塑性を増加させる。可塑性注入は代替方法に比べてより強い性能を得る
論文参考訳（メタデータ） (2023-05-24T20:41:35Z)
Understanding and Preventing Capacity Loss in Reinforcement Learning [28.52122927103544]
我々は、非定常予測対象が深層RLエージェントの学習進行を阻止できるメカニズムを同定する。キャパシティ損失は様々なRLエージェントや環境で発生し、特にスパース・リワードタスクのパフォーマンスにダメージを与えている。
論文参考訳（メタデータ） (2022-04-20T15:55:15Z)
Towards Lifelong Learning of End-to-end ASR [81.15661413476221]
lifelong learningは、マシンが新しいデータセットから新しいタスクをシーケンシャルに学習できるようにすることを目的としている。 WERの28.7%の相対的な減少は、3つの非常に異なるベンチマークコーポラを順次学習する場合の微調整ベースラインと比較して達成された。
論文参考訳（メタデータ） (2021-04-04T13:48:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。