論文の概要: Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm
- arxiv url: http://arxiv.org/abs/2503.18816v1
- Date: Mon, 24 Mar 2025 16:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:26.753622
- Title: Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm
- Title(参考訳): 局所性に基づく多エージェント・アクター・クリティカル・アルゴリズムによるマルチロボット協調学習
- Authors: Chak Lam Shek, Amrit Singh Bedi, Anjon Basak, Ellen Novoseller, Nick Waytowich, Priya Narayanan, Dinesh Manocha, Pratap Tokekar,
- Abstract要約: 我々は,textbfLocalityをベースとしたtextbfFactorized textbfMulti-Agent textbfActor-textbfCritic (Loc-FACMAC) という新しい協調型マルチエージェント強化学習法を提案する。
我々は、局所性の概念を批判的学習に統合し、トレーニング中に強く関連するロボットが分割を形成する。
提案手法は,局所的な報酬に着目し,分割型学習を活用して既存のアルゴリズムを改良し,学習効率と性能を向上させる。
- 参考スコア(独自算出の注目度): 54.98788921815576
- License:
- Abstract: In this work, we present a novel cooperative multi-agent reinforcement learning method called \textbf{Loc}ality based \textbf{Fac}torized \textbf{M}ulti-Agent \textbf{A}ctor-\textbf{C}ritic (Loc-FACMAC). Existing state-of-the-art algorithms, such as FACMAC, rely on global reward information, which may not accurately reflect the quality of individual robots' actions in decentralized systems. We integrate the concept of locality into critic learning, where strongly related robots form partitions during training. Robots within the same partition have a greater impact on each other, leading to more precise policy evaluation. Additionally, we construct a dependency graph to capture the relationships between robots, facilitating the partitioning process. This approach mitigates the curse of dimensionality and prevents robots from using irrelevant information. Our method improves existing algorithms by focusing on local rewards and leveraging partition-based learning to enhance training efficiency and performance. We evaluate the performance of Loc-FACMAC in three environments: Hallway, Multi-cartpole, and Bounded-Cooperative-Navigation. We explore the impact of partition sizes on the performance and compare the result with baseline MARL algorithms such as LOMAQ, FACMAC, and QMIX. The experiments reveal that, if the locality structure is defined properly, Loc-FACMAC outperforms these baseline algorithms up to 108\%, indicating that exploiting the locality structure in the actor-critic framework improves the MARL performance.
- Abstract(参考訳): 本稿では,新しい協調型マルチエージェント強化学習手法である \textbf{Loc}ality based \textbf{Fac}torized \textbf{M}ulti-Agent \textbf{A}ctor-\textbf{C}ritic (Loc-FACMAC)を提案する。
FACMACのような既存の最先端のアルゴリズムは、グローバルな報酬情報に依存しており、分散システムにおける個々のロボットの行動の質を正確に反映していない可能性がある。
我々は、局所性の概念を批判的学習に統合し、トレーニング中に強く関連するロボットが分割を形成する。
同じパーティション内のロボットは互いに大きな影響を与え、より正確なポリシー評価をもたらす。
さらに,ロボット間の関係を捉えるための依存性グラフを構築し,分割処理を容易にする。
このアプローチは次元の呪いを軽減し、ロボットが無関係な情報を使用するのを防ぐ。
提案手法は,局所的な報酬に着目し,分割型学習を活用して既存のアルゴリズムを改良し,学習効率と性能を向上させる。
Loc-FACMACは,Halway,Multi-cartpole,Bunded-Cooperative-Navigationの3つの環境において評価した。
分割サイズが性能に与える影響について検討し、LOMAQ, FACMAC, QMIXなどのベースラインMARLアルゴリズムと比較する。
実験の結果,ローカリティ構造が適切に定義されている場合,Loc-FACMACはこれらのベースラインアルゴリズムを最大108\%で上回り,アクタクリティカルなフレームワークにおける局所性構造を活用することにより,MARLの性能が向上することが示された。
関連論文リスト
- A Local Information Aggregation based Multi-Agent Reinforcement Learning for Robot Swarm Dynamic Task Allocation [4.144893164317513]
分散化された部分観測可能なマルコフ決定プロセス(Dec_POMDP)を用いた新しいフレームワークを提案する。
我々の方法論の核心は、局所情報集約多元決定政策勾配(LIA_MADDPG)アルゴリズムである。
実験により,LIAモジュールは様々なCTDEベースのMARL法にシームレスに統合可能であることが示された。
論文 参考訳(メタデータ) (2024-11-29T07:53:05Z) - SPACE: A Python-based Simulator for Evaluating Decentralized Multi-Robot Task Allocation Algorithms [1.52292571922932]
本研究では,分散マルチロボットタスクアロケーション(MRTA)アルゴリズムの研究,評価,比較を支援するPythonベースのシミュレータであるSPACE(Swarm Planning and Control Evaluation)を提案する。
SPACEは、Pythonプラグインとして意思決定アルゴリズムを実装し、直感的なGUIでエージェントの動作木を簡単に構築し、エージェント間通信とローカルタスク認識のための組み込みサポートを活用することで、コアアルゴリズム開発を効率化する。
論文 参考訳(メタデータ) (2024-09-06T12:38:24Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。