論文の概要: Multi-Agent Cross-Entropy Method with Monotonic Nonlinear Critic Decomposition
- arxiv url: http://arxiv.org/abs/2511.18671v2
- Date: Wed, 26 Nov 2025 16:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.399256
- Title: Multi-Agent Cross-Entropy Method with Monotonic Nonlinear Critic Decomposition
- Title(参考訳): 単調非線形臨界分解を用いたマルチエージェントクロスエントロピー法
- Authors: Yan Wang, Ke Deng, Yongli Ren,
- Abstract要約: マルチエージェント強化学習(MARL)は、分散実行(CTDE)を用いた集中訓練を一般的に採用する
集中分散ミスマッチ(CDM)は、あるエージェントの最適下行動が他のエージェントの学習を劣化させるときに発生する。
単調非線形批判分解(NCD)を併用したマルチエージェントクロスエントロピー法(MCEM)を提案する。
MCEMは、連続したアクションベンチマークと離散的なアクションベンチマークの両方で最先端のメソッドより優れている。
- 参考スコア(独自算出の注目度): 8.367194129436118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) commonly adopts centralized training with decentralized execution (CTDE), where centralized critics leverage global information to guide decentralized actors. However, centralized-decentralized mismatch (CDM) arises when the suboptimal behavior of one agent degrades others' learning. Prior approaches mitigate CDM through value decomposition, but linear decompositions allow per-agent gradients at the cost of limited expressiveness, while nonlinear decompositions improve representation but require centralized gradients, reintroducing CDM. To overcome this trade-off, we propose the multi-agent cross-entropy method (MCEM), combined with monotonic nonlinear critic decomposition (NCD). MCEM updates policies by increasing the probability of high-value joint actions, thereby excluding suboptimal behaviors. For sample efficiency, we extend off-policy learning with a modified k-step return and Retrace. Analysis and experiments demonstrate that MCEM outperforms state-of-the-art methods across both continuous and discrete action benchmarks.
- Abstract(参考訳): 協調的マルチエージェント強化学習(MARL)は、一般的に、分散実行(CTDE)による集中的なトレーニングを採用し、中央集権的な批評家はグローバル情報を利用して、分散されたアクターを導く。
しかし、中央集権型ミスマッチ(CDM)は、あるエージェントの最適動作が他のエージェントの学習を劣化させるときに生じる。
従来の手法では, 値分解によるCDMの緩和が見られたが, 線形分解では表現性に制限があるため, エージェントごとの勾配が許容され, 非線形分解では表現性は向上するが, 集中的な勾配が必要となり, CDMを再導入する。
このトレードオフを克服するために、単調非線形批判分解(NCD)と組み合わせたマルチエージェントクロスエントロピー法(MCEM)を提案する。
MCEMは、高価値なジョイントアクションの確率を増大させることでポリシーを更新し、それによって準最適動作を除外する。
サンプル効率を向上させるため、k段階の逆戻りとRetraceを改良して、非政治学習を拡張した。
解析と実験により、MCEMは連続的および離散的な動作ベンチマークにおいて最先端の手法よりも優れていることが示された。
関連論文リスト
- Beyond Monotonicity: Revisiting Factorization Principles in Multi-Agent Q-Learning [24.476713156225685]
値分解はマルチエージェント強化学習(MARL)における中心的アプローチである
既存の方法は、表現力を制限する単調性制約を強制するか、アルゴリズムの複雑さを犠牲にしてよりソフトなサロゲートを採用するかのどちらかである。
制約のない非単調な分解は、IGG最適解を確実に回復し、一貫して単調な基底線を上回ることを示す。
論文 参考訳(メタデータ) (2025-11-12T22:49:35Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Decentralized Smoothing ADMM for Quantile Regression with Non-Convex Sparse Penalties [3.269165283595478]
急速に進化するIoT(Internet-of-Things)エコシステムでは、センサによって生成された分散データを扱う上で、効果的なデータ分析技術が不可欠である。
下位段階のコンセンサスアプローチのような既存の手法の限界に対処することは、アクティブ係数と非アクティブ係数の区別に失敗する。
論文 参考訳(メタデータ) (2024-08-02T15:00:04Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。