論文の概要: Learning-NUM: Network Utility Maximization with Unknown Utility
Functions and Queueing Delay
- arxiv url: http://arxiv.org/abs/2012.09222v1
- Date: Wed, 16 Dec 2020 19:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 07:49:54.785334
- Title: Learning-NUM: Network Utility Maximization with Unknown Utility
Functions and Queueing Delay
- Title(参考訳): learning-num: 未知のユーティリティ関数と待ち行列遅延によるネットワークユーティリティ最大化
- Authors: Xinzhe Fu, Eytan Modiano
- Abstract要約: ユーザの実用関数が未知の apriori である新しい NUM フレームワークである Learning-NUM を提案する。
最適な動的ポリシーによって得られる期待される全効用は、静的最適化問題に対する解によって上限される。
フィードバック遅延を処理するために、アルゴリズムを並列インスタンスパラダイムに組み込み、$tildeO(T3/4)$-regret、すなわち最良の動的ポリシーによって得られる期待されるユーティリティと私たちのポリシーの違いを$tildeO(Tilde)で実現するポリシーを作成します。
- 参考スコア(独自算出の注目度): 29.648462942501084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network Utility Maximization (NUM) studies the problems of allocating traffic
rates to network users in order to maximize the users' total utility subject to
network resource constraints. In this paper, we propose a new NUM framework,
Learning-NUM, where the users' utility functions are unknown apriori and the
utility function values of the traffic rates can be observed only after the
corresponding traffic is delivered to the destination, which means that the
utility feedback experiences \textit{queueing delay}.
The goal is to design a policy that gradually learns the utility functions
and makes rate allocation and network scheduling/routing decisions so as to
maximize the total utility obtained over a finite time horizon $T$. In addition
to unknown utility functions and stochastic constraints, a central challenge of
our problem lies in the queueing delay of the observations, which may be
unbounded and depends on the decisions of the policy.
We first show that the expected total utility obtained by the best dynamic
policy is upper bounded by the solution to a static optimization problem.
Without the presence of feedback delay, we design an algorithm based on the
ideas of gradient estimation and Max-Weight scheduling. To handle the feedback
delay, we embed the algorithm in a parallel-instance paradigm to form a policy
that achieves $\tilde{O}(T^{3/4})$-regret, i.e., the difference between the
expected utility obtained by the best dynamic policy and our policy is in
$\tilde{O}(T^{3/4})$. Finally, to demonstrate the practical applicability of
the Learning-NUM framework, we apply it to three application scenarios
including database query, job scheduling and video streaming. We further
conduct simulations on the job scheduling application to evaluate the empirical
performance of our policy.
- Abstract(参考訳): ネットワーク利用度最大化(NUM)は、ネットワークリソースの制約を受けるユーザの全ユーティリティを最大化するために、トラフィックレートをネットワークユーザに割り当てる問題を研究する。
本稿では,NUMフレームワークであるLearning-NUMを提案する。これは,ユーザのユーティリティ関数が未知のアプリオリであり,対応するトラフィックが目的地に配信された後にのみ,トラフィックレートのユーティリティ関数値が観測可能であるため,ユーティリティフィードバックが‘textit{queueing delay} を体験できることを意味する。
目的は、ユーティリティ関数を徐々に学習し、有限時間地平線上で得られた全ユーティリティを最大化するために、レート割り当てとネットワークスケジューリング/ルーティング決定を行うポリシーを設計することである。
未知の効用関数や確率的制約に加えて、我々の問題の中心的な課題は観測の待ち行列遅延であり、これは無制限でありポリシーの決定に依存する可能性がある。
まず,最善の動的ポリシによって得られる期待総ユーティリティは,静的最適化問題に対する解によって上限されることを示す。
フィードバック遅延がなければ,勾配推定と最大重み付けスケジューリングのアイデアに基づくアルゴリズムを設計する。
フィードバック遅延に対処するため、並列インスタンスパラダイムにアルゴリズムを組み込み、$\tilde{O}(T^{3/4})$-regret、すなわち、最高の動的ポリシーによって得られる期待ユーティリティとポリシーとの差を$\tilde{O}(T^{3/4})$とする。
最後に,learning-numフレームワークの実用性を示すために,データベースクエリ,ジョブスケジューリング,ビデオストリーミングという3つのアプリケーションシナリオに適用した。
さらに,本政策の実証的性能を評価するために,ジョブスケジューリングアプリケーション上でシミュレーションを行う。
関連論文リスト
- Adversarial Network Optimization under Bandit Feedback: Maximizing Utility in Non-Stationary Multi-Hop Networks [35.78834550608041]
古典的なSNOアルゴリズムでは、ネットワーク条件は時間とともに定常である必要がある。
これらの問題に触発され、我々は帯域幅のフィードバックの下でAdversarial Network Optimization (ANO) を検討する。
提案するUMO2アルゴリズムは,ネットワークの安定性を保証し,また,「微妙に変化する」参照ポリシーの実用性に適合する。
論文 参考訳(メタデータ) (2024-08-29T02:18:28Z) - Neural Quantile Optimization for Edge-Cloud Networking [13.509945075582447]
我々は,バースト可能な請求書に基づいて制約を満足し,コストを最小化するエッジ・クラウド・コンピューティング・ネットワークにおいて,最適なトラフィック割当方式を模索する。
本稿では,教師なし学習による最適化問題を解決するため,Gumbel-softmaxサンプリングネットワークを提案する。
トレーニングされたネットワークは、効率的なトラフィック割当スキームサンプリングとして機能し、実現可能性およびコスト関数値のランダム戦略を著しく上回る。
論文 参考訳(メタデータ) (2023-07-11T11:05:10Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Learning Augmented Index Policy for Optimal Service Placement at the
Network Edge [8.136957953239254]
私たちは、意思決定者がエッジでホストする$ N$サービスのいずれかを選択する必要があるネットワークエッジでサービス配置の問題を検討します。
私たちの目標は、顧客の平均サービス配信遅延を最小限に抑える適応アルゴリズムを設計することです。
論文 参考訳(メタデータ) (2021-01-10T23:54:59Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。