Fugu-MT 論文翻訳(概要): HyperMARL: Adaptive Hypernetworks for Multi-Agent RL

論文の概要: HyperMARL: Adaptive Hypernetworks for Multi-Agent RL

arxiv url: http://arxiv.org/abs/2412.04233v4
Date: Wed, 29 Oct 2025 11:37:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-30 15:50:42.790803
Title: HyperMARL: Adaptive Hypernetworks for Multi-Agent RL
Title（参考訳）: HyperMARL: マルチエージェントRLのための適応型ハイパーネット
Authors: Kale-ab Abebe Tessera, Arrasy Rahman, Amos Storkey, Stefano V. Albrecht,
Abstract要約: マルチエージェント強化学習(MARL)は、均一性、特殊化、混合行動を表現するためのポリシーを必要とする。エージェント条件のハイパーネットワークはエージェント固有のパラメータを生成し、観察とエージェント条件の勾配を分離することができる。提案手法であるHyperMARLは,先行研究の複雑さを回避し,政策勾配の分散を実証的に低減する。
参考スコア（独自算出の注目度）: 13.029350832809582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adaptive cooperation in multi-agent reinforcement learning (MARL) requires policies to express homogeneous, specialised, or mixed behaviours, yet achieving this adaptivity remains a critical challenge. While parameter sharing (PS) is standard for efficient learning, it notoriously suppresses the behavioural diversity required for specialisation. This failure is largely due to cross-agent gradient interference, a problem we find is surprisingly exacerbated by the common practice of coupling agent IDs with observations. Existing remedies typically add complexity through altered objectives, manual preset diversity levels, or sequential updates -- raising a fundamental question: can shared policies adapt without these intricacies? We propose a solution built on a key insight: an agent-conditioned hypernetwork can generate agent-specific parameters and decouple observation- and agent-conditioned gradients, directly countering the interference from coupling agent IDs with observations. Our resulting method, HyperMARL, avoids the complexities of prior work and empirically reduces policy gradient variance. Across diverse MARL benchmarks (22 scenarios, up to 30 agents), HyperMARL achieves performance competitive with six key baselines while preserving behavioural diversity comparable to non-parameter sharing methods, establishing it as a versatile and principled approach for adaptive MARL. The code is publicly available at https://github.com/KaleabTessera/HyperMARL.
Abstract（参考訳）: 多エージェント強化学習(MARL)における適応的協調は、同種、特化、または混合行動を表現する政策を必要とするが、この適応性を達成することは依然として重要な課題である。パラメータ共有(PS)は効率的な学習の標準であるが、専門化に必要な振る舞いの多様性を抑えることで悪名高い。この障害の大部分は、交叉勾配干渉によるものであり、観察とエージェントIDを結合する一般的な慣行によって、驚くほど悪化している。既存の治療法は一般的に、変更対象、手動の事前設定された多様性レベル、あるいはシーケンシャルな更新を通じて複雑さを増す -- 根本的な疑問を提起する。エージェント条件付きハイパーネットワークは、エージェント固有のパラメータを生成し、観測とエージェント条件付き勾配を分離し、結合エージェントIDと観測との干渉に直接対応できる。提案手法であるHyperMARLは,先行研究の複雑さを回避し,政策勾配の分散を実証的に低減する。多様なMARLベンチマーク(22のシナリオ、最大30のエージェント)を通じて、HyperMARLは6つの主要なベースラインと競合するパフォーマンスを実現し、非パラメータ共有メソッドに匹敵する振る舞いの多様性を保ち、適応MARLのための汎用的で原則化されたアプローチとして確立している。コードはhttps://github.com/KaleabTessera/HyperMARLで公開されている。

関連論文リスト

Adaptability in Multi-Agent Reinforcement Learning: A Framework and Unified Review [9.246912481179464]
MARL(Multi-Agent Reinforcement Learning)は、シミュレーションベンチマークと制約付きシナリオ間で複数のエージェントを協調する上で、明らかな効果を示している。この調査は、動的で実世界のマルチエージェントシステムへのデプロイに適したアルゴリズムの開発に寄与する。
論文参考訳（メタデータ） (2025-07-14T10:39:17Z)
Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文参考訳（メタデータ） (2025-05-09T11:42:31Z)
Low-Rank Agent-Specific Adaptation (LoRASA) for Multi-Agent Policy Learning [3.333453555166201]
マルチエージェント強化学習(MARL)は、効率的にスケールするために、エフェムパラメータ共有(PS)に依存することが多い。我々は,各エージェントのポリシーを,共有バックボーンから微調整した特別タスクとして扱う新しいアプローチである textbfLow-Rank Agent-Specific Adaptation (LoRASA) を提案する。我々は、StarCraft Multi-Agent Challenge (SMAC)やMulti-Agent MuJoCo (MAMuJoCo)といった挑戦的なベンチマークでLoRASAを評価する。
論文参考訳（メタデータ） (2025-02-08T13:57:53Z)
Heterogeneous Multi-Agent Reinforcement Learning for Distributed Channel Access in WLANs [47.600901884970845]
本稿では,マルチエージェント強化学習(MARL)を用いて,無線ローカルネットワークにおける分散チャネルアクセスに対処する。特に、エージェントがモデルトレーニングに価値ベースまたはポリシーベースの強化学習アルゴリズムを不均一に採用する、より実践的なケースについて考察する。我々は、分散実行パラダイムを用いた集中型トレーニングを採用し、異種エージェントの協調を可能にする、異種MARLトレーニングフレームワークQPMIXを提案する。
論文参考訳（メタデータ） (2024-12-18T13:50:31Z)
SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents [14.08299391695986]
マルチエージェントLLMの効率と多様性を向上させるために,スパース混合エージェント(SMoA)フレームワークを提案する。 SMoAは、個々のLSMエージェント間で情報の流れを分散させる新しい応答選択と早期停止機構を導入している。推論、アライメント、公平性ベンチマークの実験は、SMoAが従来の混合エージェントアプローチに匹敵するパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2024-11-05T17:33:39Z)
Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文参考訳（メタデータ） (2024-11-02T05:49:14Z)
Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning [14.01772209044574]
本稿では,新しい適応型部分パラメータ共有方式であるEmphKaleidoscopeを紹介する。パラメータ共有の効率を犠牲にすることなく、これらのマスク間の相違を促進することで、ポリシーネットワーク間の多様性を促進する。我々はKaleidoscopeを拡張してアクター批判アルゴリズムの文脈におけるアンサンブルを批判する。
論文参考訳（メタデータ） (2024-10-11T05:22:54Z)
MoME: Mixture of Multimodal Experts for Cancer Survival Prediction [46.520971457396726]
生存分析は、難しい課題として、全体スライド画像(WSI)とゲノムデータを総合的な意思決定のために統合する必要がある。従来の手法ではコアテンション(co-attention)方式が用いられており、この手法は両方のモダリティから特徴を分離した後にのみ融合する。符号化と融合を同時に行うBiased Progressive Clever(BPE)パラダイムを提案する。
論文参考訳（メタデータ） (2024-06-14T03:44:33Z)
HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文参考訳（メタデータ） (2024-05-28T11:41:41Z)
Controlling Behavioral Diversity in Multi-Agent Reinforcement Learning [8.905920197601173]
本研究では,ある指標の正確な値に対する多様性を制御できるダイバーシティ制御(DiCo)を導入する。マルチエージェント強化学習における性能向上とサンプル効率向上のための新しいパラダイムとしてDiCoを用いる方法を示す。
論文参考訳（メタデータ） (2024-05-23T21:03:33Z)
Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。 SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-04-05T03:02:57Z)
Adaptive parameter sharing for multi-agent reinforcement learning [15.716649118116514]
生物学における脳に関する研究から着想を得た新しいパラメータ共有手法を提案する。エージェントのタイプを、そのアイデンティティに基づいて、共有ネットワーク内の異なるリージョンにマッピングする。本手法は,訓練パラメータを付加することなく,異なるエージェント間の戦略の多様性を向上させることができる。
論文参考訳（メタデータ） (2023-12-14T15:00:32Z)
AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文参考訳（メタデータ） (2023-11-03T18:56:48Z)
Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-06T00:20:19Z)
Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep Reinforcement Learning [20.35644044703191]
本稿では,ニューラルネットワークに構造化プルーニングを適用して,新たなパラメータを導入することなく,共同政策の表現能力を高める方法を提案する。提案手法をいくつかのベンチマークタスクで評価し,提案手法が他のパラメータ共有手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-02T02:17:14Z)
Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-06-01T04:58:52Z)
Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文参考訳（メタデータ） (2022-02-10T06:23:56Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。