論文の概要: Sparsity-Driven Plasticity in Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.06871v1
- Date: Sat, 09 Aug 2025 07:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.590133
- Title: Sparsity-Driven Plasticity in Multi-Task Reinforcement Learning
- Title(参考訳): マルチタスク強化学習におけるスポーサリティ駆動型塑性
- Authors: Aleksandar Todorov, Juan Cardenas-Cartagena, Rafael F. Cunha, Marco Zullich, Matthia Sabatelli,
- Abstract要約: 塑性損失は、訓練が進むにつれて適応する能力の低下であり、深い強化学習において重要な課題である。
特にGMP(Gradual Magnitude Pruning)やSparse Evolutionary Training(SET)などのスペーシフィケーション手法を体系的に検討し,可塑性の向上を図った。
- 参考スコア(独自算出の注目度): 41.39740414165092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plasticity loss, a diminishing capacity to adapt as training progresses, is a critical challenge in deep reinforcement learning. We examine this issue in multi-task reinforcement learning (MTRL), where higher representational flexibility is crucial for managing diverse and potentially conflicting task demands. We systematically explore how sparsification methods, particularly Gradual Magnitude Pruning (GMP) and Sparse Evolutionary Training (SET), enhance plasticity and consequently improve performance in MTRL agents. We evaluate these approaches across distinct MTRL architectures (shared backbone, Mixture of Experts, Mixture of Orthogonal Experts) on standardized MTRL benchmarks, comparing against dense baselines, and a comprehensive range of alternative plasticity-inducing or regularization methods. Our results demonstrate that both GMP and SET effectively mitigate key indicators of plasticity degradation, such as neuron dormancy and representational collapse. These plasticity improvements often correlate with enhanced multi-task performance, with sparse agents frequently outperforming dense counterparts and achieving competitive results against explicit plasticity interventions. Our findings offer insights into the interplay between plasticity, network sparsity, and MTRL designs, highlighting dynamic sparsification as a robust but context-sensitive tool for developing more adaptable MTRL systems.
- Abstract(参考訳): 塑性損失は、訓練が進むにつれて適応する能力の低下であり、深い強化学習において重要な課題である。
マルチタスク強化学習(MTRL)では,多種多様かつ潜在的に矛盾するタスク要求を管理する上で,高い表現柔軟性が不可欠である。
特にGMP(Gradual Magnitude Pruning)とSET(Sparse Evolutionary Training)のスペーシフィケーション手法を体系的に検討し,可塑性の向上とMTRL剤の性能向上を図った。
標準化されたMTRLベンチマークにおいて、これらのアプローチを異なるMTRLアーキテクチャ(Shared Backbone, Mixture of Experts, Mixture of Orthogonal Experts)で評価し、高密度ベースラインと比較し、代替塑性誘導法や正規化法を包括的に検討した。
以上の結果から,GMPとSETは共に,ニューロンの休眠や表現的崩壊などの可塑性劣化の指標を効果的に緩和することが示唆された。
これらの可塑性改善は、しばしばマルチタスク性能の向上と相関し、スパース剤は密接な物質よりも優れ、明示的な可塑性介入に対する競争的な結果を達成する。
本研究は, より適応性の高いMTRLシステムを開発するための, 動的スペーシフィケーションを頑健だがコンテキストに敏感なツールとして強調し, 塑性, ネットワーク空間, MTRL設計の相互作用について考察した。
関連論文リスト
- Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.67854581396578]
Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。
Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
論文 参考訳(メタデータ) (2025-04-24T12:32:13Z) - Residual Learning Inspired Crossover Operator and Strategy Enhancements for Evolutionary Multitasking [0.3749861135832073]
進化的マルチタスキングでは、クロスオーバー演算子やスキルファクター割り当てといった戦略が効果的な知識伝達に不可欠である。
本稿では,残差学習に基づくMFEA-RL法を提案する。
ResNetベースのメカニズムは、タスク適応性を改善するためのスキルファクタを動的に割り当て、ランダムマッピング機構は、効率的にクロスオーバー操作を行う。
論文 参考訳(メタデータ) (2025-03-27T10:27:17Z) - Value-Based Deep Multi-Agent Reinforcement Learning with Dynamic Sparse Training [38.03693752287459]
マルチエージェント強化学習(MARL)は、マルチエージェントシナリオにおいて、多数のパラメータを持つニューラルネットワークに依存している。
本稿では,動的スパーストレーニング(DST)の利用法を提案する。
本稿では,学習目標の信頼性とサンプル分布の合理性を同時に向上することを目的とした,革新的なマルチエージェントスパーストレーニング(MAST)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T15:57:24Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。