論文の概要: HyperMARL: Adaptive Hypernetworks for Multi-Agent RL
- arxiv url: http://arxiv.org/abs/2412.04233v1
- Date: Thu, 05 Dec 2024 15:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:44.952525
- Title: HyperMARL: Adaptive Hypernetworks for Multi-Agent RL
- Title(参考訳): HyperMARL: マルチエージェントRLのための適応型ハイパーネット
- Authors: Kale-ab Abebe Tessera, Arrasy Rahman, Stefano V. Albrecht,
- Abstract要約: HyperMARLは、ハイパーネットワークを使って効率と特殊性のバランスをとる新しいアプローチである。
エージェント固有のアクターおよび批評家パラメータを生成し、エージェントは多様な、あるいは均質な振る舞いを適応的に表現することができる。
一貫してFuPS、NoPS、多様性を重視した手法に適合し、共有アーキテクチャでNoPSレベルの多様性を達成する。
- 参考スコア(独自算出の注目度): 10.00022425344723
- License:
- Abstract: Balancing individual specialisation and shared behaviours is a critical challenge in multi-agent reinforcement learning (MARL). Existing methods typically focus on encouraging diversity or leveraging shared representations. Full parameter sharing (FuPS) improves sample efficiency but struggles to learn diverse behaviours when required, while no parameter sharing (NoPS) enables diversity but is computationally expensive and sample inefficient. To address these challenges, we introduce HyperMARL, a novel approach using hypernetworks to balance efficiency and specialisation. HyperMARL generates agent-specific actor and critic parameters, enabling agents to adaptively exhibit diverse or homogeneous behaviours as needed, without modifying the learning objective or requiring prior knowledge of the optimal diversity. Furthermore, HyperMARL decouples agent-specific and state-based gradients, which empirically correlates with reduced policy gradient variance, potentially offering insights into its ability to capture diverse behaviours. Across MARL benchmarks requiring homogeneous, heterogeneous, or mixed behaviours, HyperMARL consistently matches or outperforms FuPS, NoPS, and diversity-focused methods, achieving NoPS-level diversity with a shared architecture. These results highlight the potential of hypernetworks as a versatile approach to the trade-off between specialisation and shared behaviours in MARL.
- Abstract(参考訳): 個別の専門性と共有行動のバランスをとることは、マルチエージェント強化学習(MARL)において重要な課題である。
既存の手法は一般的に多様性の促進や共有表現の活用に重点を置いている。
フルパラメータ共有(FuPS)はサンプリング効率を改善するが、パラメータ共有(NoPS)は多様性を許容するが、計算コストが高く、サンプル非効率である。
これらの課題に対処するために,ハイパーネットワークを用いた効率と特殊化のバランスをとる新しいアプローチであるHyperMARLを導入する。
HyperMARLはエージェント固有のアクターおよび批評家パラメータを生成し、学習目標を変更したり、最適な多様性に関する事前知識を必要とせずに、エージェントが必要に応じて多様な、あるいは均質な振る舞いを適応的に表現できるようにする。
さらに、HyperMARLはエージェント固有の勾配と状態ベースの勾配を分離し、政策勾配のばらつきの低減と経験的に相関し、多様な振る舞いを捉える能力に関する洞察を提供する可能性がある。
均質、異質、混合な振る舞いを必要とするMARLベンチマーク全体において、HyperMARLは一貫してFuPS、NoPS、多様性を重視した手法に適合し、共有アーキテクチャでNoPSレベルの多様性を達成する。
これらの結果は、MARLにおける特殊化と共有行動のトレードオフに対する汎用的なアプローチとしてのハイパーネットワークの可能性を強調している。
関連論文リスト
- Learning Flexible Heterogeneous Coordination with Capability-Aware Shared Hypernetworks [2.681242476043447]
異種多エージェント協調のための新しいアーキテクチャであるCASH(Capability-Aware Shared Hypernetworks)を提案する。
CASHは、ソフトパラメータ共有ハイパーネットワークを通じてサンプル効率を維持しながら十分な多様性を生成する。
2つの異種協調タスクと3つの標準学習パラダイムにまたがる実験を示す。
論文 参考訳(メタデータ) (2025-01-10T15:39:39Z) - Heterogeneous Multi-Agent Reinforcement Learning for Distributed Channel Access in WLANs [47.600901884970845]
本稿では,マルチエージェント強化学習(MARL)を用いて,無線ローカルネットワークにおける分散チャネルアクセスに対処する。
特に、エージェントがモデルトレーニングに価値ベースまたはポリシーベースの強化学習アルゴリズムを不均一に採用する、より実践的なケースについて考察する。
我々は、分散実行パラダイムを用いた集中型トレーニングを採用し、異種エージェントの協調を可能にする、異種MARLトレーニングフレームワークQPMIXを提案する。
論文 参考訳(メタデータ) (2024-12-18T13:50:31Z) - Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning [14.01772209044574]
本稿では,新しい適応型部分パラメータ共有方式であるEmphKaleidoscopeを紹介する。
パラメータ共有の効率を犠牲にすることなく、これらのマスク間の相違を促進することで、ポリシーネットワーク間の多様性を促進する。
我々はKaleidoscopeを拡張してアクター批判アルゴリズムの文脈におけるアンサンブルを批判する。
論文 参考訳(メタデータ) (2024-10-11T05:22:54Z) - MoME: Mixture of Multimodal Experts for Cancer Survival Prediction [46.520971457396726]
生存分析は、難しい課題として、全体スライド画像(WSI)とゲノムデータを総合的な意思決定のために統合する必要がある。
従来の手法ではコアテンション(co-attention)方式が用いられており、この手法は両方のモダリティから特徴を分離した後にのみ融合する。
符号化と融合を同時に行うBiased Progressive Clever(BPE)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-14T03:44:33Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。
異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。
我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-05T03:02:57Z) - Adaptive parameter sharing for multi-agent reinforcement learning [16.861543418593044]
生物学における脳に関する研究から着想を得た新しいパラメータ共有手法を提案する。
エージェントのタイプを、そのアイデンティティに基づいて、共有ネットワーク内の異なるリージョンにマッピングする。
本手法は,訓練パラメータを付加することなく,異なるエージェント間の戦略の多様性を向上させることができる。
論文 参考訳(メタデータ) (2023-12-14T15:00:32Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。