論文の概要: Generative Multi-Agent Q-Learning for Policy Optimization: Decentralized Wireless Networks
- arxiv url: http://arxiv.org/abs/2503.05970v2
- Date: Fri, 14 Mar 2025 04:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:02:55.659822
- Title: Generative Multi-Agent Q-Learning for Policy Optimization: Decentralized Wireless Networks
- Title(参考訳): 政策最適化のための生成的マルチエージェントQラーニング:分散無線ネットワーク
- Authors: Talha Bozkus, Urbashi Mitra,
- Abstract要約: 協調分散型無線ネットワークのための新しいマルチエージェントMEMQ(M-MEMQ)を提案する。
非協調状態においては、TXは個々のコストを最小化し、局所的なQ-関数を更新するために独立に作用する。
M-MEMQは、平均ポリシーエラー(APE)が55%、収束が35%速く、ランタイムの複雑さが50%減少し、サンプルの複雑さが45%減少します。
- 参考スコア(独自算出の注目度): 18.035417008213077
- License:
- Abstract: Q-learning is a widely used reinforcement learning (RL) algorithm for optimizing wireless networks, but faces challenges with large state-spaces. Recently proposed multi-environment mixed Q-learning (MEMQ) algorithm addresses these challenges by employing multiple Q-learning algorithms across multiple synthetically generated, distinct but structurally related environments, so-called digital cousins. In this paper, we propose a novel multi-agent MEMQ (M-MEMQ) for cooperative decentralized wireless networks with multiple networked transmitters (TXs) and base stations (BSs). TXs do not have access to global information (joint state and actions). The new concept of coordinated and uncoordinated states is introduced. In uncoordinated states, TXs act independently to minimize their individual costs and update local Q-functions. In coordinated states, TXs use a Bayesian approach to estimate the joint state and update the joint Q-functions. The cost of information-sharing scales linearly with the number of TXs and is independent of the joint state-action space size. Several theoretical guarantees, including deterministic and probabilistic convergence, bounds on estimation error variance, and the probability of misdetecting the joint states, are given. Numerical simulations show that M-MEMQ outperforms several decentralized and centralized training with decentralized execution (CTDE) multi-agent RL algorithms by achieving 55% lower average policy error (APE), 35% faster convergence, 50% reduced runtime complexity, and 45% less sample complexity. Furthermore, M-MEMQ achieves comparable APE with significantly lower complexity than centralized methods. Simulations validate the theoretical analyses.
- Abstract(参考訳): Qラーニング(Q-learning)は、無線ネットワークを最適化するために広く使われている強化学習(RL)アルゴリズムである。
最近提案されたマルチ環境混合Q-ラーニング(MEMQ)アルゴリズムは、複数の合成環境において複数のQ-ラーニングアルゴリズムを用いることにより、これらの課題に対処する。
本稿では,複数のネットワーク送信機(TX)と基地局(BS)を備えた協調分散型無線ネットワークのための新しいマルチエージェントMEMQ(M-MEMQ)を提案する。
TXはグローバル情報(状態と動作)にアクセスできない。
コーディネート状態と非コーディネート状態という新しい概念が導入された。
非協調状態においては、TXは個々のコストを最小化し、局所的なQ-関数を更新するために独立に作用する。
座標状態では、TXはベイズ的アプローチを用いて結合状態を推定し、結合Q関数を更新する。
情報共有のコストはTXの数と線形にスケールし、共同状態-作用空間サイズとは無関係である。
決定論的および確率的収束、推定誤差のばらつき、共同状態を誤検出する確率など、いくつかの理論的保証が与えられる。
数値シミュレーションにより、M-MEMQは、平均ポリシーエラー(APE)が55%低く、収束が35%速く、ランタイムの複雑さが50%減少し、サンプルの複雑さが45%減少し、分散実行(CTDE)マルチエージェントRLアルゴリズムによる分散および集中的なトレーニングに優れていた。
さらに、M-MEMQ は集中型手法よりもはるかに少ない複雑さで APE に匹敵する。
シミュレーションは理論解析を検証します。
関連論文リスト
- Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Coverage Analysis for Digital Cousin Selection -- Improving Multi-Environment Q-Learning [24.212773534280387]
近年の進歩としては、マルチ環境混合Q-ラーニング(MEMQ)アルゴリズムがある。
MEMQアルゴリズムは、精度、複雑さ、堅牢性の点で、最先端のQ-ラーニングアルゴリズムよりも優れています。
本稿では,既存のMEMQアルゴリズムの精度と複雑さを改善するために,新しいCCベースのMEMQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-13T06:16:12Z) - A Multi-Agent Multi-Environment Mixed Q-Learning for Partially Decentralized Wireless Network Optimization [18.035417008213077]
複数の移動体送信機(TX)と基地局(BS)を備えた部分分散無線ネットワークのための新しいマルチエージェントMEMQアルゴリズムを提案する。
提案手法は集中型MEMQよりも50%高速で、平均ポリシエラー(APE)は20%増加し、APEを40%削減した先進的な分散Q-ラーニングアルゴリズムよりも25%高速である。
論文 参考訳(メタデータ) (2024-09-24T20:34:47Z) - Leveraging Digital Cousins for Ensemble Q-Learning in Large-Scale
Wireless Networks [21.30645601474163]
無線ネットワークを最適化する新しいアンサンブルQ-ラーニングアルゴリズムを提案する。
提案アルゴリズムは、最先端の強化学習アルゴリズムよりも実行時複雑性を最大40%低減し、平均誤差を最大50%低減することができる。
論文 参考訳(メタデータ) (2024-02-12T19:39:07Z) - Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。
従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-02-08T08:08:23Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。