論文の概要: Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.00912v1
- Date: Thu, 2 Mar 2023 02:17:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:17:17.444486
- Title: Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep
Reinforcement Learning
- Title(参考訳): スケーラブル・マルチエージェント深層強化学習のためのネットワークプルーニングによるパラメータ共有
- Authors: Woojun Kim, Youngchul Sung
- Abstract要約: 本稿では,ニューラルネットワークに構造化プルーニングを適用して,新たなパラメータを導入することなく,共同政策の表現能力を高める方法を提案する。
提案手法をいくつかのベンチマークタスクで評価し,提案手法が他のパラメータ共有手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 20.35644044703191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handling the problem of scalability is one of the essential issues for
multi-agent reinforcement learning (MARL) algorithms to be applied to
real-world problems typically involving massively many agents. For this,
parameter sharing across multiple agents has widely been used since it reduces
the training time by decreasing the number of parameters and increasing the
sample efficiency. However, using the same parameters across agents limits the
representational capacity of the joint policy and consequently, the performance
can be degraded in multi-agent tasks that require different behaviors for
different agents. In this paper, we propose a simple method that adopts
structured pruning for a deep neural network to increase the representational
capacity of the joint policy without introducing additional parameters. We
evaluate the proposed method on several benchmark tasks, and numerical results
show that the proposed method significantly outperforms other parameter-sharing
methods.
- Abstract(参考訳): スケーラビリティの問題を扱うことは、多エージェント強化学習(MARL)アルゴリズムが現実の問題に適用される上で不可欠な問題の一つである。
このため,パラメータ数を減らし,サンプル効率を向上させることでトレーニング時間を短縮できるため,複数のエージェント間でのパラメータ共有が広く利用されている。
しかしながら、エージェント間で同じパラメータを使用すると、ジョイントポリシーの表現能力が制限されるため、異なるエージェントの異なる振る舞いを必要とするマルチエージェントタスクでパフォーマンスが低下する可能性がある。
本稿では,深層ニューラルネットワークに構造化プルーニングを適用して,追加パラメータを導入することなく,共同政策の表現能力を高める方法を提案する。
提案手法をいくつかのベンチマークタスクで評価し,提案手法が他のパラメータ共有手法よりも優れていることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Efficient Pareto Manifold Learning with Low-Rank Structure [31.082432589391953]
マルチタスク学習は本質的に多目的最適化問題である。
そこで本研究では,複数の低ランク行列を主ネットワークに統合する手法を提案する。
パラメータの数を著しく削減し、共有された特徴の抽出を容易にする。
論文 参考訳(メタデータ) (2024-07-30T11:09:27Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Adaptive parameter sharing for multi-agent reinforcement learning [16.861543418593044]
生物学における脳に関する研究から着想を得た新しいパラメータ共有手法を提案する。
エージェントのタイプを、そのアイデンティティに基づいて、共有ネットワーク内の異なるリージョンにマッピングする。
本手法は,訓練パラメータを付加することなく,異なるエージェント間の戦略の多様性を向上させることができる。
論文 参考訳(メタデータ) (2023-12-14T15:00:32Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Scaling Multi-Agent Reinforcement Learning with Selective Parameter
Sharing [4.855663359344748]
深層強化学習におけるパラメータの共有は、アルゴリズムを多数のエージェントに拡張する上で重要な役割を担っている。
しかし、全てのエージェントが同じパラメータを共有することは、学習に有害な影響を及ぼす可能性がある。
それらの能力と目標に基づいて,パラメータを分割することで,パラメータ共有の恩恵を受けるエージェントを自動的に特定する手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T11:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。