論文の概要: HyperMARL: Adaptive Hypernetworks for Multi-Agent RL
- arxiv url: http://arxiv.org/abs/2412.04233v2
- Date: Fri, 07 Feb 2025 11:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:54:04.620276
- Title: HyperMARL: Adaptive Hypernetworks for Multi-Agent RL
- Title(参考訳): HyperMARL: マルチエージェントRLのための適応型ハイパーネット
- Authors: Kale-ab Abebe Tessera, Arrasy Rahman, Stefano V. Albrecht,
- Abstract要約: HyperMARLは、ハイパーネットワークを使用して学習目標を変更することなく、エージェント固有のパラメータを生成するパラメータ共有アプローチである。
完全に共有され、非パラメータ共有され、多様性を促進するベースラインと一貫して競合する。
これらの知見は,多種多様な環境におけるMARLの汎用的アプローチとしてハイパーネットワークを確立した。
- 参考スコア(独自算出の注目度): 10.00022425344723
- License:
- Abstract: Adaptability is critical in cooperative multi-agent reinforcement learning (MARL), where agents must learn specialised or homogeneous behaviours for diverse tasks. While parameter sharing methods are sample-efficient, they often encounter gradient interference among agents, limiting their behavioural diversity. Conversely, non-parameter sharing approaches enable specialisation, but are computationally demanding and sample-inefficient. To address these issues, we propose HyperMARL, a parameter sharing approach that uses hypernetworks to dynamically generate agent-specific actor and critic parameters, without altering the learning objective or requiring preset diversity levels. By decoupling observation- and agent-conditioned gradients, HyperMARL empirically reduces policy gradient variance and facilitates specialisation within FuPS, suggesting it can mitigate cross-agent interference. Across multiple MARL benchmarks involving up to twenty agents -- and requiring homogeneous, heterogeneous, or mixed behaviours -- HyperMARL consistently performs competitively with fully shared, non-parameter-sharing, and diversity-promoting baselines, all while preserving a behavioural diversity level comparable to non-parameter sharing. These findings establish hypernetworks as a versatile approach for MARL across diverse environments.
- Abstract(参考訳): 適応性は協調型マルチエージェント強化学習(MARL)において重要である。
パラメータ共有方法はサンプリング効率が高いが、エージェント間の勾配干渉に遭遇し、振る舞いの多様性を制限する。
逆に、非パラメータ共有アプローチは特殊化を可能にするが、計算的に要求され、サンプル非効率である。
これらの課題に対処するために,ハイパーネットワークを用いたパラメータ共有手法であるHyperMARLを提案する。
観察とエージェント条件の勾配を分離することにより、HyperMARLは政策勾配の分散を実証的に低減し、FPS内での特殊化を促進する。
最大20のエージェントを含む複数のMARLベンチマーク -- および同種、異種、または混合な振る舞いを必要とする -- を通じて、HyperMARLは、完全に共有された、非パラメータ共有、および多様性を促進するベースラインと一貫して競合し、非パラメータ共有に匹敵する振る舞いの多様性レベルを保っている。
これらの知見は,多種多様な環境におけるMARLの汎用的アプローチとしてハイパーネットワークを確立した。
関連論文リスト
- Learning Flexible Heterogeneous Coordination with Capability-Aware Shared Hypernetworks [2.681242476043447]
異種多エージェント協調のための新しいアーキテクチャであるCASH(Capability-Aware Shared Hypernetworks)を提案する。
CASHは、ソフトパラメータ共有ハイパーネットワークを通じてサンプル効率を維持しながら十分な多様性を生成する。
2つの異種協調タスクと3つの標準学習パラダイムにまたがる実験を示す。
論文 参考訳(メタデータ) (2025-01-10T15:39:39Z) - Heterogeneous Multi-Agent Reinforcement Learning for Distributed Channel Access in WLANs [47.600901884970845]
本稿では,マルチエージェント強化学習(MARL)を用いて,無線ローカルネットワークにおける分散チャネルアクセスに対処する。
特に、エージェントがモデルトレーニングに価値ベースまたはポリシーベースの強化学習アルゴリズムを不均一に採用する、より実践的なケースについて考察する。
我々は、分散実行パラダイムを用いた集中型トレーニングを採用し、異種エージェントの協調を可能にする、異種MARLトレーニングフレームワークQPMIXを提案する。
論文 参考訳(メタデータ) (2024-12-18T13:50:31Z) - Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning [14.01772209044574]
本稿では,新しい適応型部分パラメータ共有方式であるEmphKaleidoscopeを紹介する。
パラメータ共有の効率を犠牲にすることなく、これらのマスク間の相違を促進することで、ポリシーネットワーク間の多様性を促進する。
我々はKaleidoscopeを拡張してアクター批判アルゴリズムの文脈におけるアンサンブルを批判する。
論文 参考訳(メタデータ) (2024-10-11T05:22:54Z) - MoME: Mixture of Multimodal Experts for Cancer Survival Prediction [46.520971457396726]
生存分析は、難しい課題として、全体スライド画像(WSI)とゲノムデータを総合的な意思決定のために統合する必要がある。
従来の手法ではコアテンション(co-attention)方式が用いられており、この手法は両方のモダリティから特徴を分離した後にのみ融合する。
符号化と融合を同時に行うBiased Progressive Clever(BPE)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-14T03:44:33Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。
異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。
我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-05T03:02:57Z) - Adaptive parameter sharing for multi-agent reinforcement learning [16.861543418593044]
生物学における脳に関する研究から着想を得た新しいパラメータ共有手法を提案する。
エージェントのタイプを、そのアイデンティティに基づいて、共有ネットワーク内の異なるリージョンにマッピングする。
本手法は,訓練パラメータを付加することなく,異なるエージェント間の戦略の多様性を向上させることができる。
論文 参考訳(メタデータ) (2023-12-14T15:00:32Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。