論文の概要: Scaling Multi-Agent Reinforcement Learning with Selective Parameter
Sharing
- arxiv url: http://arxiv.org/abs/2102.07475v1
- Date: Mon, 15 Feb 2021 11:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:19:30.924177
- Title: Scaling Multi-Agent Reinforcement Learning with Selective Parameter
Sharing
- Title(参考訳): 選択パラメータ共有によるマルチエージェント強化学習のスケーリング
- Authors: Filippos Christianos, Georgios Papoudakis, Arrasy Rahman, Stefano V.
Albrecht
- Abstract要約: 深層強化学習におけるパラメータの共有は、アルゴリズムを多数のエージェントに拡張する上で重要な役割を担っている。
しかし、全てのエージェントが同じパラメータを共有することは、学習に有害な影響を及ぼす可能性がある。
それらの能力と目標に基づいて,パラメータを分割することで,パラメータ共有の恩恵を受けるエージェントを自動的に特定する手法を提案する。
- 参考スコア(独自算出の注目度): 4.855663359344748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sharing parameters in multi-agent deep reinforcement learning has played an
essential role in allowing algorithms to scale to a large number of agents.
Parameter sharing between agents significantly decreases the number of
trainable parameters, shortening training times to tractable levels, and has
been linked to more efficient learning. However, having all agents share the
same parameters can also have a detrimental effect on learning. We demonstrate
the impact of parameter sharing methods on training speed and converged
returns, establishing that when applied indiscriminately, their effectiveness
is highly dependent on the environment. Therefore, we propose a novel method to
automatically identify agents which may benefit from sharing parameters by
partitioning them based on their abilities and goals. Our approach combines the
increased sample efficiency of parameter sharing with the representational
capacity of multiple independent networks to reduce training time and increase
final returns.
- Abstract(参考訳): 多エージェント深部強化学習におけるパラメータの共有は,アルゴリズムを多数のエージェントに拡張する上で重要な役割を担っている。
エージェント間のパラメータ共有は、トレーニング可能なパラメータの数を大幅に減少させ、トレーニング時間をトラクタブルレベルに短縮し、より効率的な学習に結びついている。
しかし、全てのエージェントが同じパラメータを共有することは、学習に有害な影響を及ぼす可能性がある。
パラメータ共有手法が学習速度と収束リターンに与える影響を実証し,無差別に適用した場合,その効果は環境に大きく依存することを示した。
そこで本研究では,その能力と目標に基づいてパラメータを分割することで,パラメータ共有の恩恵を受けるエージェントを自動的に特定する手法を提案する。
提案手法は,パラメータ共有のサンプル効率の向上と,複数の独立ネットワークの表現能力の併用により,トレーニング時間を短縮し,最終的なリターンを増大させる。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning [14.01772209044574]
本稿では,新しい適応型部分パラメータ共有方式であるEmphKaleidoscopeを紹介する。
パラメータ共有の効率を犠牲にすることなく、これらのマスク間の相違を促進することで、ポリシーネットワーク間の多様性を促進する。
我々はKaleidoscopeを拡張してアクター批判アルゴリズムの文脈におけるアンサンブルを批判する。
論文 参考訳(メタデータ) (2024-10-11T05:22:54Z) - MoS: Unleashing Parameter Efficiency of Low-Rank Adaptation with Mixture of Shards [35.163843138935455]
大規模言語モデルの迅速なスケーリングには、爆発的なGPUメモリオーバーヘッドを低減するために、より軽量な微調整方法が必要である。
本研究は、純粋な共有による有害な影響を逆転させる上で、差別化が不可欠であることを示す。
本研究では,層間共有と層間共有を併用し,ほぼ費用がかからない4つの差別戦略を統合することで,Shardsの混合(MoS)を提案する。
論文 参考訳(メタデータ) (2024-10-01T07:47:03Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of
Multi-Agent Reinforcement Learning [20.746383793882984]
マルチエージェント強化学習(MARL)の訓練は時間を要するプロセスである。
1つの欠点は、MARLの各エージェントの戦略が独立しているが、実際に協力していることである。
本稿では,A-PPS(Average Sharing),Reward-Scalability Periodically,Partial Personalized Periodicallyという3つの簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-05T03:59:01Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Adaptive parameter sharing for multi-agent reinforcement learning [16.861543418593044]
生物学における脳に関する研究から着想を得た新しいパラメータ共有手法を提案する。
エージェントのタイプを、そのアイデンティティに基づいて、共有ネットワーク内の異なるリージョンにマッピングする。
本手法は,訓練パラメータを付加することなく,異なるエージェント間の戦略の多様性を向上させることができる。
論文 参考訳(メタデータ) (2023-12-14T15:00:32Z) - Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep
Reinforcement Learning [20.35644044703191]
本稿では,ニューラルネットワークに構造化プルーニングを適用して,新たなパラメータを導入することなく,共同政策の表現能力を高める方法を提案する。
提案手法をいくつかのベンチマークタスクで評価し,提案手法が他のパラメータ共有手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-02T02:17:14Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。