論文の概要: MFC-EQ: Mean-Field Control with Envelope Q-Learning for Moving Decentralized Agents in Formation
- arxiv url: http://arxiv.org/abs/2410.12062v1
- Date: Tue, 15 Oct 2024 20:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:15.748096
- Title: MFC-EQ: Mean-Field Control with Envelope Q-Learning for Moving Decentralized Agents in Formation
- Title(参考訳): MFC-EQ: 分散エージェントを移動させるエンベロープQラーニングによる平均場制御
- Authors: Qiushi Lin, Hang Ma,
- Abstract要約: 移動エージェント(英: moving Agents in Formation、MAiF)は、マルチエージェントパスファインディングの変種である。
MFC-EQは、この双方向マルチエージェント問題に対するスケーラブルで適応可能な学習フレームワークである。
- 参考スコア(独自算出の注目度): 1.770056709115081
- License:
- Abstract: We study a decentralized version of Moving Agents in Formation (MAiF), a variant of Multi-Agent Path Finding aiming to plan collision-free paths for multiple agents with the dual objectives of reaching their goals quickly while maintaining a desired formation. The agents must balance these objectives under conditions of partial observation and limited communication. The formation maintenance depends on the joint state of all agents, whose dimensionality increases exponentially with the number of agents, rendering the learning process intractable. Additionally, learning a single policy that can accommodate different linear preferences for these two objectives presents a significant challenge. In this paper, we propose Mean-Field Control with Envelop $Q$-learning (MFC-EQ), a scalable and adaptable learning framework for this bi-objective multi-agent problem. We approximate the dynamics of all agents using mean-field theory while learning a universal preference-agnostic policy through envelop $Q$-learning. Our empirical evaluation of MFC-EQ across numerous instances shows that it outperforms state-of-the-art centralized MAiF baselines. Furthermore, MFC-EQ effectively handles more complex scenarios where the desired formation changes dynamically -- a challenge that existing MAiF planners cannot address.
- Abstract(参考訳): 複数エージェントに対して衝突のない経路を計画することを目的とした多エージェント経路探索の変種であるMulti-Agent Path Finds in Formation (MAiF) の分散版について検討を行った。
エージェントは、部分的な観察と限られたコミュニケーションの条件下でこれらの目的をバランスさせなければならない。
構成維持は全てのエージェントの結合状態に依存し、その次元はエージェントの数とともに指数関数的に増加するので、学習プロセスは難解である。
さらに、これらの2つの目的に対して異なる線形嗜好を満たすことができる単一のポリシーを学ぶことは、重大な課題である。
本稿では,この二目的多エージェント問題に対して,スケーラブルで適応可能な学習フレームワークであるMean-Field Control with Envelop $Q$-learning (MFC-EQ)を提案する。
平均場理論を用いて全てのエージェントのダイナミクスを近似し、Q$-learningを包含することで、普遍的な嗜好に依存しないポリシーを学習する。
その結果,MFC-EQは最先端の集中型MAiFベースラインよりも優れていた。
さらに、MFC-EQは、望まれるフォーメーションが動的に変化するより複雑なシナリオを効果的に処理します。
関連論文リスト
- A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Decentralized Adaptive Formation via Consensus-Oriented Multi-Agent
Communication [9.216867817261493]
本稿では,Consensus-based Decentralized Adaptive Formation (Cons-DecAF) フレームワークを提案する。
具体的には、コンセンサス指向のマルチエージェント通信(ConsMAC)という新しいマルチエージェント強化学習手法を開発する。
エージェントの特定の位置を事前に割り当てる代わりに、Hausdorff 距離による変位に基づく生成を用いて、生成効率を著しく向上する。
論文 参考訳(メタデータ) (2023-07-23T10:41:17Z) - Learning Decentralized Partially Observable Mean Field Control for
Artificial Collective Behavior [28.313779052437134]
分散部分観測可能なMFC(Dec-POMFC)の新しいモデルを提案する。
動的プログラミング原理を含む厳密な理論結果を提供する。
全体として、我々のフレームワークは、MFCによる人工集合行動のRLに基づく工学への一歩を踏み出した。
論文 参考訳(メタデータ) (2023-07-12T14:02:03Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - TransfQMix: Transformers for Leveraging the Graph Structure of
Multi-Agent Reinforcement Learning Problems [0.0]
TransfQMixは、トランスフォーマーを使用して潜在グラフ構造を活用し、より良いコーディネーションポリシーを学習する新しいアプローチである。
我々の変換器Q-mixerは、エージェントの内部状態と外部状態を含む大きなグラフから単調混合関数を学習する。
本稿では,TransfQMixのSpreadおよびStarCraft II環境における性能について報告する。
論文 参考訳(メタデータ) (2023-01-13T00:07:08Z) - Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO
systems [0.3883460584034765]
そこで本稿では,MADRLをベースとした手法により,達成可能なレート領域の外部境界(パリトバウンダリ)を達成するためのプリコーダを共同で最適化する。
また、無線通信で広く使われている信号の、従来の複雑なベースバンド表現による位相曖昧性の問題にも対処する。
我々の知る限りでは、MA-DDPGフレームワークがプリコーダを協調的に最適化し、達成可能なレート領域のパリトバウンダリを達成できることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2021-09-10T16:50:45Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。