論文の概要: Learning Augmented Index Policy for Optimal Service Placement at the
Network Edge
- arxiv url: http://arxiv.org/abs/2101.03641v2
- Date: Thu, 14 Jan 2021 04:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 08:19:27.760627
- Title: Learning Augmented Index Policy for Optimal Service Placement at the
Network Edge
- Title(参考訳): ネットワークエッジにおける最適サービス配置のための拡張インデックスポリシーの学習
- Authors: Guojun Xiong, Rahul Singh, Jian Li
- Abstract要約: 私たちは、意思決定者がエッジでホストする$ N$サービスのいずれかを選択する必要があるネットワークエッジでサービス配置の問題を検討します。
私たちの目標は、顧客の平均サービス配信遅延を最小限に抑える適応アルゴリズムを設計することです。
- 参考スコア(独自算出の注目度): 8.136957953239254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of service placement at the network edge, in which a
decision maker has to choose between $N$ services to host at the edge to
satisfy the demands of customers. Our goal is to design adaptive algorithms to
minimize the average service delivery latency for customers. We pose the
problem as a Markov decision process (MDP) in which the system state is given
by describing, for each service, the number of customers that are currently
waiting at the edge to obtain the service. However, solving this $N$-services
MDP is computationally expensive due to the curse of dimensionality. To
overcome this challenge, we show that the optimal policy for a single-service
MDP has an appealing threshold structure, and derive explicitly the Whittle
indices for each service as a function of the number of requests from customers
based on the theory of Whittle index policy.
Since request arrival and service delivery rates are usually unknown and
possibly time-varying, we then develop efficient learning augmented algorithms
that fully utilize the structure of optimal policies with a low learning
regret. The first of these is UCB-Whittle, and relies upon the principle of
optimism in the face of uncertainty. The second algorithm, Q-learning-Whittle,
utilizes Q-learning iterations for each service by using a two time scale
stochastic approximation. We characterize the non-asymptotic performance of
UCB-Whittle by analyzing its learning regret, and also analyze the convergence
properties of Q-learning-Whittle. Simulation results show that the proposed
policies yield excellent empirical performance.
- Abstract(参考訳): 私たちは、ネットワークエッジにおけるサービス配置の問題を考慮し、意思決定者は、顧客の要求を満たすためにエッジにホストするn$サービスを選択する必要があります。
当社の目標は、顧客に対する平均的なサービスデリバリレイテンシを最小化する、適応型アルゴリズムの設計です。
我々は,システム状態が各サービスに対して,現在エッジで待機している顧客数を説明することで,システム状態が付与されるマルコフ決定プロセス(MDP)として,この問題に対処する。
しかし、この$N$-services MDPの解決には次元の呪いがあるため計算コストがかかる。
この課題を克服するために、単一サービスMDPの最適ポリシーは、魅力的なしきい値構造を持ち、Whittleインデックスポリシーの理論に基づく顧客の要求数関数として、各サービスのWhittleインデックスを明示的に導出することを示した。
要求到着率とサービス提供率は通常不明であり、おそらく時間変化があるため、学習不足の少ない最適ポリシーの構造を完全に活用する効率的な学習拡張アルゴリズムを開発する。
そのうちの1つは UCB-Whittle であり、不確実性に直面した楽観主義の原理に依存している。
第2のアルゴリズムであるQ-learning-Whittleは、2時間スケール確率近似を用いて、各サービスのQ-learningイテレーションを利用する。
学習後悔を分析し,Q-learning-Whittleの収束特性を解析することにより, UCB-Whittleの非漸近性能を特徴付ける。
シミュレーションの結果,提案手法は優れた経験的性能を示した。
関連論文リスト
- Slicing for AI: An Online Learning Framework for Network Slicing Supporting AI Services [5.80147190706865]
6Gネットワークは、革新的なネットワークスライシング戦略を必要とするAI駆動サービスの新たな領域を受け入れる。
本稿では,AIサービスへの計算・通信資源の割り当てを最適化するオンライン学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-20T14:38:54Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - FedCAda: Adaptive Client-Side Optimization for Accelerated and Stable Federated Learning [57.38427653043984]
フェデレートラーニング(FL)は、分散クライアント間の機械学習モデルの協調トレーニングにおいて、顕著なアプローチとして登場した。
我々は,この課題に対処するために設計された,革新的なクライアント適応アルゴリズムであるFedCAdaを紹介する。
我々はFedCAdaが適応性、収束性、安定性、全体的な性能の点で最先端の手法より優れていることを実証する。
論文 参考訳(メタデータ) (2024-05-20T06:12:33Z) - Online Learning and Optimization for Queues with Unknown Demand Curve
and Service Distribution [26.720986177499338]
サービス提供者が最適なサービス料金 p とサービス容量 mu を選択する待ち行列システムにおける最適化問題について検討する。
本研究では,パラメータ推定誤差を自動的に解法に組み込むオンライン学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-03-06T08:47:40Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Online Learning for Orchestration of Inference in Multi-User
End-Edge-Cloud Networks [3.6076391721440633]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。
本稿では、最適オフロードポリシーを学習する強化学習に基づく計算オフロードソリューションを提案する。
我々のソリューションは、平均応答時間において、0.9%未満の精度で、最先端技術と比較して35%のスピードアップを提供する。
論文 参考訳(メタデータ) (2022-02-21T21:41:29Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Learning-NUM: Network Utility Maximization with Unknown Utility
Functions and Queueing Delay [29.648462942501084]
ユーザの実用関数が未知の apriori である新しい NUM フレームワークである Learning-NUM を提案する。
最適な動的ポリシーによって得られる期待される全効用は、静的最適化問題に対する解によって上限される。
フィードバック遅延を処理するために、アルゴリズムを並列インスタンスパラダイムに組み込み、$tildeO(T3/4)$-regret、すなわち最良の動的ポリシーによって得られる期待されるユーティリティと私たちのポリシーの違いを$tildeO(Tilde)で実現するポリシーを作成します。
論文 参考訳(メタデータ) (2020-12-16T19:36:25Z) - An online learning approach to dynamic pricing and capacity sizing in
service systems [26.720986177499338]
本稿では,$GI/GI/1$キューにおいて,動的価格とキャパシティサイズの問題について検討する。
私たちのフレームワークは、GOLiQ(Gradient-based Online Learning in Queue)と呼ばれています。
論文 参考訳(メタデータ) (2020-09-07T07:17:20Z) - Optimistic Exploration even with a Pessimistic Initialisation [57.41327865257504]
最適初期化は強化学習(RL)における効率的な探索のための効果的な戦略である
特に、正の報酬しか持たないシナリオでは、Q-値はその最低値で初期化される。
本稿では、ニューラルネットワークから楽観性の源を分離する、悲観的に初期化されたQ値に対する単純なカウントベースの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-26T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。