論文の概要: Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.08540v1
- Date: Fri, 11 Oct 2024 05:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 23:24:44.919669
- Title: Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning
- Title(参考訳): Kaleidoscope: 不均一なマルチエージェント強化学習のための学習可能なマスク
- Authors: Xinran Li, Ling Pan, Jun Zhang,
- Abstract要約: 本稿では,新しい適応型部分パラメータ共有方式であるEmphKaleidoscopeを紹介する。
パラメータ共有の効率を犠牲にすることなく、これらのマスク間の相違を促進することで、ポリシーネットワーク間の多様性を促進する。
我々はKaleidoscopeを拡張してアクター批判アルゴリズムの文脈におけるアンサンブルを批判する。
- 参考スコア(独自算出の注目度): 14.01772209044574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-agent reinforcement learning (MARL), parameter sharing is commonly employed to enhance sample efficiency. However, the popular approach of full parameter sharing often leads to homogeneous policies among agents, potentially limiting the performance benefits that could be derived from policy diversity. To address this critical limitation, we introduce \emph{Kaleidoscope}, a novel adaptive partial parameter sharing scheme that fosters policy heterogeneity while still maintaining high sample efficiency. Specifically, Kaleidoscope maintains one set of common parameters alongside multiple sets of distinct, learnable masks for different agents, dictating the sharing of parameters. It promotes diversity among policy networks by encouraging discrepancy among these masks, without sacrificing the efficiencies of parameter sharing. This design allows Kaleidoscope to dynamically balance high sample efficiency with a broad policy representational capacity, effectively bridging the gap between full parameter sharing and non-parameter sharing across various environments. We further extend Kaleidoscope to critic ensembles in the context of actor-critic algorithms, which could help improve value estimations.Our empirical evaluations across extensive environments, including multi-agent particle environment, multi-agent MuJoCo and StarCraft multi-agent challenge v2, demonstrate the superior performance of Kaleidoscope compared with existing parameter sharing approaches, showcasing its potential for performance enhancement in MARL. The code is publicly available at \url{https://github.com/LXXXXR/Kaleidoscope}.
- Abstract(参考訳): マルチエージェント強化学習(MARL)では、パラメータ共有がサンプリング効率を高めるために一般的に用いられる。
しかし、完全なパラメータ共有の一般的なアプローチは、しばしばエージェント間の均質なポリシーをもたらし、ポリシーの多様性から得られるパフォーマンス上の利点を制限する可能性がある。
この限界に対処するために、我々は高サンプル効率を維持しながら政策の不均一性を育む新しい適応型部分パラメータ共有スキームである 'emph{Kaleidoscope} を導入する。
具体的には、Kaleidoscopeは、異なるエージェントに対して複数の異なる学習可能なマスクのセットとともに共通のパラメータのセットを維持し、パラメータの共有を規定している。
パラメータ共有の効率を犠牲にすることなく、これらのマスク間の相違を促進することで、ポリシーネットワーク間の多様性を促進する。
この設計により、カレイドスコープは広いポリシー表現能力で高効率を動的にバランスさせ、様々な環境における全パラメータ共有と非パラメータ共有のギャップを効果的に埋めることができる。
我々はさらに、Keleidoscopeを、価値評価の改善に役立つアクタークリティカルアルゴリズムの文脈におけるアンサンブルを批判するために拡張し、マルチエージェント粒子環境、マルチエージェントMuJoCo、スタークラフトマルチエージェントチャレンジv2を含む広範囲な環境における実験的な評価を行い、既存のパラメータ共有アプローチと比較してKaleidoscopeの優れた性能を示し、MARLの性能向上の可能性を示している。
コードは \url{https://github.com/LXXXXR/Kaleidoscope} で公開されている。
関連論文リスト
- HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。
異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。
我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-05T03:02:57Z) - Adaptive parameter sharing for multi-agent reinforcement learning [16.861543418593044]
生物学における脳に関する研究から着想を得た新しいパラメータ共有手法を提案する。
エージェントのタイプを、そのアイデンティティに基づいて、共有ネットワーク内の異なるリージョンにマッピングする。
本手法は,訓練パラメータを付加することなく,異なるエージェント間の戦略の多様性を向上させることができる。
論文 参考訳(メタデータ) (2023-12-14T15:00:32Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep
Reinforcement Learning [20.35644044703191]
本稿では,ニューラルネットワークに構造化プルーニングを適用して,新たなパラメータを導入することなく,共同政策の表現能力を高める方法を提案する。
提案手法をいくつかのベンチマークタスクで評価し,提案手法が他のパラメータ共有手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-02T02:17:14Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Mix and Mask Actor-Critic Methods [0.0]
アクタークリティカルな手法のための共有特徴空間は、ポリシーと値関数で使用される一般化された潜在表現をキャプチャすることを目的としている。
混合マスク機構と分散スカラー化手法を導入することで,これらの課題に対処する新しい特徴共有フレームワークを提案する。
実験結果から,共有バックボーンを持つネットワークとネットワークを別々に使用する方法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-06-24T14:12:45Z) - Scaling Multi-Agent Reinforcement Learning with Selective Parameter
Sharing [4.855663359344748]
深層強化学習におけるパラメータの共有は、アルゴリズムを多数のエージェントに拡張する上で重要な役割を担っている。
しかし、全てのエージェントが同じパラメータを共有することは、学習に有害な影響を及ぼす可能性がある。
それらの能力と目標に基づいて,パラメータを分割することで,パラメータ共有の恩恵を受けるエージェントを自動的に特定する手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T11:33:52Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。