論文の概要: Decentralized Reinforcement Learning for Multi-Agent Multi-Resource Allocation via Dynamic Cluster Agreements
- arxiv url: http://arxiv.org/abs/2503.02437v1
- Date: Tue, 04 Mar 2025 09:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:39.675232
- Title: Decentralized Reinforcement Learning for Multi-Agent Multi-Resource Allocation via Dynamic Cluster Agreements
- Title(参考訳): 動的クラスタアグリーメントによるマルチエージェントマルチリソースアロケーションのための分散強化学習
- Authors: Antonio Marino, Esteban Restrepo, Claudio Pacchierotti, Paolo Robuffo Giordano,
- Abstract要約: 本稿では、分散的に複数のエージェント間で異種資源を割り当てることの課題に対処する。
提案手法であるLGTC-IPPOは,動的クラスタ・コンセンサスを統合することにより,独立近似政策最適化(IPPO)に基づく。
実験結果から,LGTC-IPPOはエージェント数やリソースタイプが増えても,より安定した報酬,コーディネーション,ロバストな性能が得られることが示された。
- 参考スコア(独自算出の注目度): 13.586104024751586
- License:
- Abstract: This paper addresses the challenge of allocating heterogeneous resources among multiple agents in a decentralized manner. Our proposed method, LGTC-IPPO, builds upon Independent Proximal Policy Optimization (IPPO) by integrating dynamic cluster consensus, a mechanism that allows agents to form and adapt local sub-teams based on resource demands. This decentralized coordination strategy reduces reliance on global information and enhances scalability. We evaluate LGTC-IPPO against standard multi-agent reinforcement learning baselines and a centralized expert solution across a range of team sizes and resource distributions. Experimental results demonstrate that LGTC-IPPO achieves more stable rewards, better coordination, and robust performance even as the number of agents or resource types increases. Additionally, we illustrate how dynamic clustering enables agents to reallocate resources efficiently also for scenarios with discharging resources.
- Abstract(参考訳): 本稿では、分散的に複数のエージェント間で異種資源を割り当てることの課題に対処する。
提案手法であるLGTC-IPPO (Independent Proximal Policy Optimization) は,エージェントがリソース要求に基づいてローカルサブチームを形成し,適応する機構である動的クラスタ・コンセンサスを統合することで,IPPO(Independent Proximal Policy Optimization)に基づく。
この分散協調戦略は、グローバル情報への依存を減らし、スケーラビリティを高める。
我々は,LGTC-IPPOを,標準的なマルチエージェント強化学習ベースラインに対して評価し,チームサイズやリソース分布の多岐にわたる集中型エキスパートソリューションを提案する。
実験結果から,LGTC-IPPOはエージェント数やリソースタイプが増えても,より安定した報酬,コーディネーション,ロバストな性能が得られることが示された。
さらに、動的クラスタリングによってエージェントがリソースを効率的に再配置する方法について説明する。
関連論文リスト
- Adaptive AI-based Decentralized Resource Management in the Cloud-Edge Continuum [4.989052212674281]
Cloud-Edge Continuumは、効率的なリソース管理のための大きな課題を提示している。
従来の集中型アプローチは、静的な性質のため、これらの変化に適応するのに苦労する。
本稿では,動的アプリケーション配置と資源管理のためのハイブリッド分散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T06:07:09Z) - Hierarchical Reinforcement Learning for Optimal Agent Grouping in Cooperative Systems [0.4759142872591625]
本稿では,協調型マルチエージェントシステムにおけるエージェントグループ化やペアリングの問題に対処するための階層型強化学習(RL)手法を提案する。
階層的なRLフレームワークを用いることで、グループ化の高レベル決定と低レベルのエージェントのアクションを区別する。
エージェント間の均質性や協調性を扱うために、置換型ニューラルネットワークを導入し、効果的な協調を可能にする。
論文 参考訳(メタデータ) (2025-01-11T14:22:10Z) - Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - Hierarchical Multi-Agent DRL Based Dynamic Cluster Reconfiguration for UAV Mobility Management [46.80160709931929]
マルチコネクション性には、分散アクセスポイント(AP)間の動的クラスタ形成と、これらのAPからのリソース割り当ての調整が含まれる。
本研究では,エネルギー効率のよい動的クラスタ再構成を用いた無人航空機(UAV)の移動性管理手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T19:20:42Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - Decentralized Policy Optimization [21.59254848913971]
単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。
実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
論文 参考訳(メタデータ) (2022-11-06T05:38:23Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。