論文の概要: Ensemble-MIX: Enhancing Sample Efficiency in Multi-Agent RL Using Ensemble Methods
- arxiv url: http://arxiv.org/abs/2506.02841v1
- Date: Tue, 03 Jun 2025 13:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.419913
- Title: Ensemble-MIX: Enhancing Sample Efficiency in Multi-Agent RL Using Ensemble Methods
- Title(参考訳): Ensemble-MIX:Ensemble法によるマルチエージェントRLのサンプル効率向上
- Authors: Tom Danino, Nahum Shimkin,
- Abstract要約: マルチエージェント強化学習(MARL)法は,様々なマルチエージェントタスクにおいて最先端の結果を得た。
しかし、MARLアルゴリズムは、単一のエージェントよりもはるかに多くの環境相互作用を必要とする。
本稿では,分散された中央集権的批判と分散アンサンブル学習を組み合わせた新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) methods have achieved state-of-the-art results on a range of multi-agent tasks. Yet, MARL algorithms typically require significantly more environment interactions than their single-agent counterparts to converge, a problem exacerbated by the difficulty in exploring over a large joint action space and the high variance intrinsic to MARL environments. To tackle these issues, we propose a novel algorithm that combines a decomposed centralized critic with decentralized ensemble learning, incorporating several key contributions. The main component in our scheme is a selective exploration method that leverages ensemble kurtosis. We extend the global decomposed critic with a diversity-regularized ensemble of individual critics and utilize its excess kurtosis to guide exploration toward high-uncertainty states and actions. To improve sample efficiency, we train the centralized critic with a novel truncated variation of the TD($\lambda$) algorithm, enabling efficient off-policy learning with reduced variance. On the actor side, our suggested algorithm adapts the mixed samples approach to MARL, mixing on-policy and off-policy loss functions for training the actors. This approach balances between stability and efficiency and outperforms purely off-policy learning. The evaluation shows our method outperforms state-of-the-art baselines on standard MARL benchmarks, including a variety of SMAC II maps.
- Abstract(参考訳): マルチエージェント強化学習(MARL)法は,様々なマルチエージェントタスクにおいて最先端の結果を得た。
しかし、MARLアルゴリズムは一般に、単一のエージェントよりもはるかに多くの環境相互作用を必要とする。
これらの課題に対処するために、分散された中央集権的批評家と分散アンサンブル学習を組み合わせ、いくつかの重要な貢献を取り入れた新しいアルゴリズムを提案する。
本手法の主な構成要素は,アンサンブル・カルトシスを利用した選択的探索法である。
我々は、グローバルに分解された批評家を、個人評論家の多様性に規則化されたアンサンブルで拡張し、その過剰なカルトーシスを利用して、高い不確実性状態や行動への探索を指導する。
サンプル効率を向上させるために,TD($\lambda$)アルゴリズムの新たな切り替わる変分を用いて中央集権的評論家を訓練し,分散を低減した効率的なオフポリシー学習を実現する。
アクター側では、提案アルゴリズムはMARLへの混合サンプルアプローチに適応し、アクターを訓練するためのオン・ポリティクスとオフ・ポリティクスの損失関数を混合する。
このアプローチは安定性と効率のバランスを保ち、純粋に政治以外の学習よりも優れています。
本手法は,各種のSMAC IIマップを含む標準MARLベンチマークにおいて,最先端のベースラインよりも優れていることを示す。
関連論文リスト
- MisoDICE: Multi-Agent Imitation from Unlabeled Mixed-Quality Demonstrations [5.4482836906033585]
実演が混在する多エージェント環境下でのオフライン模倣学習(IL)について検討した。
提案手法は,軌道ラベリングとマルチエージェント模倣学習の2段階からなる。
我々はこれらのラベルを利用してロバストなポリシーを学習する新しいマルチエージェントILアルゴリズムであるMisoDICEを紹介する。
論文 参考訳(メタデータ) (2025-05-24T08:43:42Z) - O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である
協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。
我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文 参考訳(メタデータ) (2025-01-31T08:08:20Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Pathfinding [76.67608003501479]
POGEMAは、学習のための高速環境、問題インスタンスジェネレータ、可視化ツールキットを含む、総合的なツールセットである。
また、プライマリ評価指標に基づいて計算されるドメイン関連メトリクスの範囲を規定する評価プロトコルを導入し、定義する。
この比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含む。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Off-Policy Correction For Multi-Agent Reinforcement Learning [9.599347559588216]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。
単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。
我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文 参考訳(メタデータ) (2021-11-22T14:23:13Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。