論文の概要: A Federated Online Restless Bandit Framework for Cooperative Resource Allocation
- arxiv url: http://arxiv.org/abs/2406.07992v1
- Date: Wed, 12 Jun 2024 08:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:45:58.595321
- Title: A Federated Online Restless Bandit Framework for Cooperative Resource Allocation
- Title(参考訳): 協調的資源配分のためのオンラインレスバンディットフレームワーク
- Authors: Jingwen Tong, Xinran Li, Liqun Fu, Jun Zhang, Khaled B. Letaief,
- Abstract要約: MRPの未知系力学を用いた協調資源配分問題について検討する。
我々は、このマルチエージェントオンラインRMAB問題を解決するために、フェデレートトンプソン対応Whittle Index(FedTSWI)アルゴリズムを作成した。
数値計算の結果,提案アルゴリズムは,ベースラインと比較して,$mathcalO(sqrtTlog(T))$の高速収束率と性能の向上を実現している。
- 参考スコア(独自算出の注目度): 23.698976872351576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restless multi-armed bandits (RMABs) have been widely utilized to address resource allocation problems with Markov reward processes (MRPs). Existing works often assume that the dynamics of MRPs are known prior, which makes the RMAB problem solvable from an optimization perspective. Nevertheless, an efficient learning-based solution for RMABs with unknown system dynamics remains an open problem. In this paper, we study the cooperative resource allocation problem with unknown system dynamics of MRPs. This problem can be modeled as a multi-agent online RMAB problem, where multiple agents collaboratively learn the system dynamics while maximizing their accumulated rewards. We devise a federated online RMAB framework to mitigate the communication overhead and data privacy issue by adopting the federated learning paradigm. Based on this framework, we put forth a Federated Thompson Sampling-enabled Whittle Index (FedTSWI) algorithm to solve this multi-agent online RMAB problem. The FedTSWI algorithm enjoys a high communication and computation efficiency, and a privacy guarantee. Moreover, we derive a regret upper bound for the FedTSWI algorithm. Finally, we demonstrate the effectiveness of the proposed algorithm on the case of online multi-user multi-channel access. Numerical results show that the proposed algorithm achieves a fast convergence rate of $\mathcal{O}(\sqrt{T\log(T)})$ and better performance compared with baselines. More importantly, its sample complexity decreases with the number of agents.
- Abstract(参考訳): Restless Multi-armed bandits (RMAB) は、マルコフ報酬プロセス (MRP) で資源配分問題に対処するために広く利用されている。
既存の研究は、MPPの力学が既に知られていることをしばしば前提としており、最適化の観点からRMAB問題を解くことができる。
それでも、未知のシステムダイナミクスを持つRMABのための効率的な学習ベースのソリューションは、依然として未解決の問題である。
本稿では,MPPの未知系力学を用いた協調資源配分問題について検討する。
この問題は、複数のエージェントが、蓄積した報酬を最大化しながら、システムのダイナミクスを協調的に学習する、マルチエージェントオンラインRMAB問題としてモデル化することができる。
我々は、フェデレートされた学習パラダイムを採用することにより、通信オーバーヘッドとデータプライバシの問題を軽減するために、フェデレートされたオンラインRMABフレームワークを考案した。
この枠組みに基づいて,フェデレートトンプソンサンプリング対応Whittle Index (FedTSWI)アルゴリズムを導入し,このマルチエージェントオンラインRMAB問題を解く。
FedTSWIアルゴリズムは高い通信効率と計算効率、プライバシー保証を享受する。
さらに、FedTSWIアルゴリズムに対する後悔の上限を導出する。
最後に,オンラインマルチユーザマルチチャネルアクセスにおける提案アルゴリズムの有効性を示す。
数値計算の結果,提案アルゴリズムは,ベースラインと比較して高速収束率$\mathcal{O}(\sqrt{T\log(T)})$を達成し,性能が向上した。
さらに重要なことに、そのサンプルの複雑さは、エージェントの数によって減少する。
関連論文リスト
- Pure Exploration in Asynchronous Federated Bandits [60.420423973886834]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。
信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T06:04:00Z) - Serverless Federated AUPRC Optimization for Multi-Party Collaborative
Imbalanced Data Mining [119.89373423433804]
有効指標としてAUPRC(Area Under Precision-Recall)を導入した。
サーバーレスのマルチパーティ共同トレーニングは、サーバーノードのボトルネックを避けることで通信コストを削減できる。
本稿では,AUPRCを直接最適化する ServerLess biAsed sTochastic gradiEnt (SLATE) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-06T06:51:32Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - A Bandit Approach to Online Pricing for Heterogeneous Edge Resource
Allocation [8.089950414444115]
ヘテロジニアスなエッジリソース割り当てのための2つの新しいオンライン価格設定機構が提案されている。
このメカニズムはリアルタイムで動作し、需要分布に関する事前の知識を必要としない。
提案した価格体系では, 利用者が好みのリソースを選択し, 支払うことができ, 観測された履歴データに基づいて動的に資源価格を調整できる。
論文 参考訳(メタデータ) (2023-02-14T10:21:14Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Robust Restless Bandits: Tackling Interval Uncertainty with Deep
Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。
遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。
RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文 参考訳(メタデータ) (2021-07-04T17:21:26Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - Multi-resource allocation for federated settings: A non-homogeneous
Markov chain model [2.552459629685159]
連合設定において、エージェントは中央エージェントまたはサーバと協調し、エージェントが互いに情報を共有しない最適化問題を解決する。
本稿では,アジェント間通信のない単一共有リソースのフェデレーション設定における最適化問題のクラスを解決するために,AIMDアルゴリズムを簡単な方法で変更する方法について述べる。
シングルリソースのアルゴリズムを、スマートシティや共有エコノミー、その他多くのアプリケーションに出現する複数の異種共有リソースに拡張する。
論文 参考訳(メタデータ) (2021-04-26T19:10:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Multi-armed Bandits with Cost Subsidy [1.6631602844999724]
本稿では、インテリジェントSMSルーティング問題と広告オーディエンス最適化問題という2つのアプリケーションを提案する。
既存のMABアルゴリズムの素早い一般化は、この問題に対してうまく機能しないことを示す。
また,このアルゴリズムに対して,探索定理の簡単な変種を提示し,ほぼ最適な後悔境界を定めている。
論文 参考訳(メタデータ) (2020-11-03T05:38:42Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。