論文の概要: HyperMARL: Adaptive Hypernetworks for Multi-Agent RL
- arxiv url: http://arxiv.org/abs/2412.04233v2
- Date: Fri, 07 Feb 2025 11:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:54:04.620276
- Title: HyperMARL: Adaptive Hypernetworks for Multi-Agent RL
- Title(参考訳): HyperMARL: マルチエージェントRLのための適応型ハイパーネット
- Authors: Kale-ab Abebe Tessera, Arrasy Rahman, Stefano V. Albrecht,
- Abstract要約: HyperMARLは、ハイパーネットワークを使用して学習目標を変更することなく、エージェント固有のパラメータを生成するパラメータ共有アプローチである。
完全に共有され、非パラメータ共有され、多様性を促進するベースラインと一貫して競合する。
これらの知見は,多種多様な環境におけるMARLの汎用的アプローチとしてハイパーネットワークを確立した。
- 参考スコア(独自算出の注目度): 10.00022425344723
- License:
- Abstract: Adaptability is critical in cooperative multi-agent reinforcement learning (MARL), where agents must learn specialised or homogeneous behaviours for diverse tasks. While parameter sharing methods are sample-efficient, they often encounter gradient interference among agents, limiting their behavioural diversity. Conversely, non-parameter sharing approaches enable specialisation, but are computationally demanding and sample-inefficient. To address these issues, we propose HyperMARL, a parameter sharing approach that uses hypernetworks to dynamically generate agent-specific actor and critic parameters, without altering the learning objective or requiring preset diversity levels. By decoupling observation- and agent-conditioned gradients, HyperMARL empirically reduces policy gradient variance and facilitates specialisation within FuPS, suggesting it can mitigate cross-agent interference. Across multiple MARL benchmarks involving up to twenty agents -- and requiring homogeneous, heterogeneous, or mixed behaviours -- HyperMARL consistently performs competitively with fully shared, non-parameter-sharing, and diversity-promoting baselines, all while preserving a behavioural diversity level comparable to non-parameter sharing. These findings establish hypernetworks as a versatile approach for MARL across diverse environments.
- Abstract(参考訳): 適応性は協調型マルチエージェント強化学習(MARL)において重要である。
パラメータ共有方法はサンプリング効率が高いが、エージェント間の勾配干渉に遭遇し、振る舞いの多様性を制限する。
逆に、非パラメータ共有アプローチは特殊化を可能にするが、計算的に要求され、サンプル非効率である。
これらの課題に対処するために,ハイパーネットワークを用いたパラメータ共有手法であるHyperMARLを提案する。
観察とエージェント条件の勾配を分離することにより、HyperMARLは政策勾配の分散を実証的に低減し、FPS内での特殊化を促進する。
最大20のエージェントを含む複数のMARLベンチマーク -- および同種、異種、または混合な振る舞いを必要とする -- を通じて、HyperMARLは、完全に共有された、非パラメータ共有、および多様性を促進するベースラインと一貫して競合し、非パラメータ共有に匹敵する振る舞いの多様性レベルを保っている。
これらの知見は,多種多様な環境におけるMARLの汎用的アプローチとしてハイパーネットワークを確立した。
関連論文リスト
- SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents [14.08299391695986]
マルチエージェントLLMの効率と多様性を向上させるために,スパース混合エージェント(SMoA)フレームワークを提案する。
SMoAは、個々のLSMエージェント間で情報の流れを分散させる新しい応答選択と早期停止機構を導入している。
推論、アライメント、公平性ベンチマークの実験は、SMoAが従来の混合エージェントアプローチに匹敵するパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-11-05T17:33:39Z) - MoME: Mixture of Multimodal Experts for Cancer Survival Prediction [46.520971457396726]
生存分析は、難しい課題として、全体スライド画像(WSI)とゲノムデータを総合的な意思決定のために統合する必要がある。
従来の手法ではコアテンション(co-attention)方式が用いられており、この手法は両方のモダリティから特徴を分離した後にのみ融合する。
符号化と融合を同時に行うBiased Progressive Clever(BPE)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-14T03:44:33Z) - Controlling Behavioral Diversity in Multi-Agent Reinforcement Learning [8.905920197601173]
本研究では,ある指標の正確な値に対する多様性を制御できるダイバーシティ制御(DiCo)を導入する。
マルチエージェント強化学習における性能向上とサンプル効率向上のための新しいパラダイムとしてDiCoを用いる方法を示す。
論文 参考訳(メタデータ) (2024-05-23T21:03:33Z) - Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。
異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。
我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-05T03:02:57Z) - CoinSeg: Contrast Inter- and Intra- Class Representations for
Incremental Segmentation [85.13209973293229]
クラスインクリメンタルセマンティックセグメンテーションは、モデルの安定性と可塑性のバランスをとることを目的としている。
インクリメンタル(CoinSeg)のためのコントラスト間およびクラス内表現を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:08:49Z) - System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning [8.280943341629161]
マルチエージェントシステムにおける振る舞いの不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。
我々は、このパラダイムが探索フェーズのブートストラップにどのように使用できるかを示し、最適なポリシーを高速に見つける。
論文 参考訳(メタデータ) (2023-05-03T13:58:13Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。