論文の概要: Value-Based Deep Multi-Agent Reinforcement Learning with Dynamic Sparse Training
- arxiv url: http://arxiv.org/abs/2409.19391v1
- Date: Sat, 28 Sep 2024 15:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:38:55.231985
- Title: Value-Based Deep Multi-Agent Reinforcement Learning with Dynamic Sparse Training
- Title(参考訳): 動的スパーストレーニングによる価値に基づく深層多エージェント強化学習
- Authors: Pihe Hu, Shaolong Li, Zhuoran Li, Ling Pan, Longbo Huang,
- Abstract要約: マルチエージェント強化学習(MARL)は、マルチエージェントシナリオにおいて、多数のパラメータを持つニューラルネットワークに依存している。
本稿では,動的スパーストレーニング(DST)の利用法を提案する。
本稿では,学習目標の信頼性とサンプル分布の合理性を同時に向上することを目的とした,革新的なマルチエージェントスパーストレーニング(MAST)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.03693752287459
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Multi-agent Reinforcement Learning (MARL) relies on neural networks with numerous parameters in multi-agent scenarios, often incurring substantial computational overhead. Consequently, there is an urgent need to expedite training and enable model compression in MARL. This paper proposes the utilization of dynamic sparse training (DST), a technique proven effective in deep supervised learning tasks, to alleviate the computational burdens in MARL training. However, a direct adoption of DST fails to yield satisfactory MARL agents, leading to breakdowns in value learning within deep sparse value-based MARL models. Motivated by this challenge, we introduce an innovative Multi-Agent Sparse Training (MAST) framework aimed at simultaneously enhancing the reliability of learning targets and the rationality of sample distribution to improve value learning in sparse models. Specifically, MAST incorporates the Soft Mellowmax Operator with a hybrid TD-($\lambda$) schema to establish dependable learning targets. Additionally, it employs a dual replay buffer mechanism to enhance the distribution of training samples. Building upon these aspects, MAST utilizes gradient-based topology evolution to exclusively train multiple MARL agents using sparse networks. Our comprehensive experimental investigation across various value-based MARL algorithms on multiple benchmarks demonstrates, for the first time, significant reductions in redundancy of up to $20\times$ in Floating Point Operations (FLOPs) for both training and inference, with less than $3\%$ performance degradation.
- Abstract(参考訳): 深層マルチエージェント強化学習(MARL)は、多エージェントシナリオにおいて多数のパラメータを持つニューラルネットワークに依存しており、しばしばかなりの計算オーバーヘッドを引き起こす。
したがって、MARLにおける訓練の迅速化とモデル圧縮の実現が急務である。
本稿では、MARLトレーニングにおける計算負担を軽減するために、深層学習タスクに有効な動的スパーストレーニング(DST)の利用を提案する。
しかし、DSTを直接採用しても満足なMARLエージェントは得られず、深いスパース値ベースのMARLモデルにおける価値学習の低下につながる。
この課題に乗じて,学習目標の信頼性とサンプル分布の合理性を同時に向上し,スパースモデルにおける価値学習を改善することを目的とした,革新的なマルチエージェントスパーストレーニング(MAST)フレームワークを導入する。
具体的には、MASTはSoft Mellowmax OperatorをハイブリッドTD-($\lambda$)スキーマに組み込んで、信頼性のある学習目標を確立する。
さらに、トレーニングサンプルの配布を強化するために、デュアルリプレイバッファ機構を使用している。
これらの側面に基づいて、MASTは勾配に基づくトポロジーの進化を利用して、スパースネットワークを用いて複数のMARLエージェントを訓練する。
複数のベンチマークで様々な値ベースのMARLアルゴリズムを比較検討した結果、トレーニングと推論の両方において、Floating Point Operations(FLOPs)における最大20ドルまでの冗長性の大幅な削減が、パフォーマンス劣化の3.5%以下で実証された。
関連論文リスト
- Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training [15.462969044840868]
LW-FedMMLは,学習プロセスを複数の段階に分解する階層型多モーダル学習手法である。
提案手法の有効性を検証するため,様々なFLおよびマルチモーダル学習環境にまたがる広範囲な実験を行った。
具体的には、LW-FedMMLはメモリ使用量を最大2.7Times$、計算処理(FLOP)を2.4times$、通信総コストを2.3times$に削減する。
論文 参考訳(メタデータ) (2024-07-22T07:06:17Z) - Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning [10.186029242664931]
我々は,MARL訓練を補完するために考案された総合表現学習の形式を適用したMAPO-LSOを提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案する。
実験の結果,MAPO-LSOはバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
論文 参考訳(メタデータ) (2024-06-05T03:11:44Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - B-SMALL: A Bayesian Neural Network approach to Sparse Model-Agnostic
Meta-Learning [2.9189409618561966]
本稿では,b-smallアルゴリズムと呼ぶベイズ型ニューラルネットワークに基づくmamlアルゴリズムを提案する。
分類タスクと回帰タスクを用いたB-MAMLのパフォーマンスを実証し、MDLを用いたスパーシファイングBNNのトレーニングがモデルのパラメータフットプリントを実際に改善することを強調した。
論文 参考訳(メタデータ) (2021-01-01T09:19:48Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。