論文の概要: Bi-level Mean Field: Dynamic Grouping for Large-Scale MARL
- arxiv url: http://arxiv.org/abs/2505.06706v2
- Date: Tue, 20 May 2025 07:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.2415
- Title: Bi-level Mean Field: Dynamic Grouping for Large-Scale MARL
- Title(参考訳): 双方向平均場:大規模MARLのための動的グループ化
- Authors: Yuxuan Zheng, Yihe Zhou, Feiyang Xu, Mingli Song, Shunyu Liu,
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)における動的グループ化によるエージェントの多様性を捉えるためのバイレベル平均場(BMF)手法を提案する。
BMFは動的グループ割り当てモジュールを導入し、エージェントの表現を学習するために変分オートエンコーダ(VAE)を使用している。
また, グループ間相互作用とグループ内相互作用の両方をモデル化し, 効果的な隣接アグリゲーションをモデル化するバイレベル相互作用モジュールを提案する。
- 参考スコア(独自算出の注目度): 30.15224197057873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Multi-Agent Reinforcement Learning (MARL) often suffers from the curse of dimensionality, as the exponential growth in agent interactions significantly increases computational complexity and impedes learning efficiency. To mitigate this, existing efforts that rely on Mean Field (MF) simplify the interaction landscape by approximating neighboring agents as a single mean agent, thus reducing overall complexity to pairwise interactions. However, these MF methods inevitably fail to account for individual differences, leading to aggregation noise caused by inaccurate iterative updates during MF learning. In this paper, we propose a Bi-level Mean Field (BMF) method to capture agent diversity with dynamic grouping in large-scale MARL, which can alleviate aggregation noise via bi-level interaction. Specifically, BMF introduces a dynamic group assignment module, which employs a Variational AutoEncoder (VAE) to learn the representations of agents, facilitating their dynamic grouping over time. Furthermore, we propose a bi-level interaction module to model both inter- and intra-group interactions for effective neighboring aggregation. Experiments across various tasks demonstrate that the proposed BMF yields results superior to the state-of-the-art methods.
- Abstract(参考訳): 大規模マルチエージェント強化学習(MARL)は、エージェント相互作用の指数的成長が計算複雑性を著しく増加させ、学習効率を損なうため、しばしば次元性の呪いに悩まされる。
これを軽減するために、平均場(MF)に依存する既存の取り組みは、隣接するエージェントを1つの平均エージェントとして近似することで相互作用の景観を単純化し、全体的な複雑さを2つの相互作用に還元する。
しかし、これらのMF法は必然的に個人差を考慮できないため、MF学習中に不正確な反復的更新によって生じる凝集ノイズが生じる。
本稿では,大規模MARLにおける動的グループ化によるエージェントの多様性を把握し,バイレベル相互作用によるアグリゲーションノイズを軽減するために,バイレベル平均場(BMF)法を提案する。
具体的には,変数の自動エンコーダ(VAE)を用いてエージェントの表現を学習し,時間とともに動的グループ化を容易にする動的グループ割り当てモジュールを導入する。
さらに, グループ間相互作用とグループ間相互作用の両方をモデル化し, 効果的な隣り合うアグリゲーションをモデル化するバイレベル相互作用モジュールを提案する。
様々なタスクにわたる実験により、提案されたBMFは最先端の手法よりも優れた結果が得られることが示された。
関連論文リスト
- LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。
チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文 参考訳(メタデータ) (2022-10-17T07:16:44Z) - Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning [39.4394389642761]
本稿では,対話型対話を対話型プロトタイプに切り離すための新しい対話型On Pattern DisenTangling (OPT) 手法を提案する。
OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。
単一タスク,マルチタスク,ゼロショットのベンチマーク実験により,提案手法が最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-08T13:42:54Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。