論文の概要: SPHERE: Mitigating the Loss of Spectral Plasticity in Mixture-of-Experts for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.04712v2
- Date: Fri, 08 May 2026 12:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.919773
- Title: SPHERE: Mitigating the Loss of Spectral Plasticity in Mixture-of-Experts for Deep Reinforcement Learning
- Title(参考訳): SPHERE:深層強化学習のための混合実験におけるスペクトル可塑性損失の軽減
- Authors: Lirui Luo, Guoxi Zhang, Hongming Xu, Cong Fang, Qing Li,
- Abstract要約: Mixture-of-Experts (MoE)ネットワークは、スケーリング法則を有効にし、多様なスキルの学習を容易にするために報告されている。
我々は、スペクトル可塑性の損失として、MoEポリシーの可塑性損失を定式化する。
我々は、スペクトル可塑性の喪失を緩和するMoEベースのポリシーに適した実用的なParsevalペナルティであるSPHEREを紹介する。
- 参考スコア(独自算出の注目度): 9.96668881329259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep reinforcement learning (DRL), an agent is trained from a stream of experience. In a continual learning setting, such agents can suffer from plasticity loss: their ability to learn new skills from new experiences diminishes over training. Recently, Mixture-of-Experts (MoE) networks have been reported to enable scaling laws and facilitate the learning of diverse skills. However, in continual reinforcement learning settings, their performance can degenerate as learning proceeds, indicating a loss of plasticity. To address this, building on Neural Tangent Kernel (NTK) theory, we formalize the plasticity loss in MoE policies as a loss of spectral plasticity. We then derive a tractable proxy for spectral plasticity, one expressible in terms of individual expert feature matrices. Leveraging this proxy, we introduce SPHERE, a practical Parseval penalty tailored for MoE-based policies that alleviates the loss of spectral plasticity. On MetaWorld and HumanoidBench, SPHERE improves average success under continual RL by 133% and 50% over an unregularized MoE baseline, while maintaining higher spectral plasticity throughout training.
- Abstract(参考訳): 深層強化学習(DRL)では、エージェントは経験の流れから訓練される。
連続的な学習環境では、そのようなエージェントは可塑性損失に悩まされ、新しい経験から新しいスキルを学ぶ能力は、トレーニング中に低下する。
近年,Mixture-of-Experts(MoE)ネットワークは,スケーリング法則の実現と多様なスキルの習得を促進するために報告されている。
しかし、連続的な強化学習環境では、学習が進むにつれてその性能は低下し、可塑性が失われることを示す。
これを解決するために、ニューラル・タンジェント・カーネル(NTK)理論に基づいて、スペクトル可塑性の損失としてMoEポリシーの可塑性損失を定式化する。
次に、各専門家の特徴行列の観点から表現可能なスペクトル可塑性の抽出可能なプロキシを導出する。
このプロキシを活用することで、スペクトル可塑性の喪失を軽減するMoEベースのポリシーに適した実用的なParsevalペナルティであるSPHEREを導入する。
MetaWorldとHumanoidBenchでは、SPHEREはトレーニングを通して高いスペクトル可塑性を維持しながら、非正規化したMoEベースラインに対して連続RLでの平均成功率を133%、50%向上させる。
関連論文リスト
- The Rank and Gradient Lost in Non-stationarity: Sample Weight Decay for Mitigating Plasticity Loss in Reinforcement Learning [62.72522261010872]
深部強化学習(RL)は、非定常性の性質により、可塑性の喪失に苦しむ。
ネットワーク最適化の理論的観点から, 可塑性損失問題について検討する。
勾配等級を復元する軽量な手法であるサンプル重み決定法を提案する。
論文 参考訳(メタデータ) (2026-04-02T11:29:46Z) - Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn [22.354498355750465]
深部連続RLにおけるチャーンレンズの可塑性損失について検討した。
1) 可塑性の喪失は, ニューラルタンジェントカーネル (NTK) マトリックスの段階的ランク低下によるチャーンの悪化を伴うことを示した。
本稿では,C-CHAIN(Continuous Churn Approximated Reduction)を導入し,学習性能の向上を実証する。
論文 参考訳(メタデータ) (2025-05-31T14:58:22Z) - Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.67854581396578]
Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。
Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
論文 参考訳(メタデータ) (2025-04-24T12:32:13Z) - A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning [7.767611890997147]
本研究は, 都市深部RLのドメインシフトにより, 可塑性損失が広まることを示す。
再生方法のクラスは, 様々な文脈において, 可塑性損失を連続的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-05-29T14:59:49Z) - Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages [56.98243487769916]
ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率のよい視覚強化学習に不可欠である。
本稿では,批評家の可塑性レベルに基づいてリプレイ率を動的に調整するAdaptive RRを提案する。
論文 参考訳(メタデータ) (2023-10-11T12:05:34Z) - PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文 参考訳(メタデータ) (2023-06-19T06:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。