論文の概要: Predict-and-Critic: Accelerated End-to-End Predictive Control for Cloud
Computing through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.01348v1
- Date: Fri, 2 Dec 2022 18:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 17:25:33.350095
- Title: Predict-and-Critic: Accelerated End-to-End Predictive Control for Cloud
Computing through Reinforcement Learning
- Title(参考訳): 強化学習によるクラウドコンピューティングのエンドツーエンド予測制御の高速化
- Authors: Kaustubh Sridhar, Vikramank Singh, Balakrishnan Narayanaswamy, Abishek
Sankararaman
- Abstract要約: 本稿では,予測によってパラメータ化されたソフト制約を持つMILPとして,産業用VMパッキング問題の近似定式化を導入する。
予測と最適化(PnO)を2段階の水平線で上回る予測と批判(PnC)フレームワークを提案する。
PnCは、最適化問題が現実の完全な表現ではない場合でも、PnCがPnOよりも決定品質を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 8.573878018370547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloud computing holds the promise of reduced costs through economies of
scale. To realize this promise, cloud computing vendors typically solve
sequential resource allocation problems, where customer workloads are packed on
shared hardware. Virtual machines (VM) form the foundation of modern cloud
computing as they help logically abstract user compute from shared physical
infrastructure. Traditionally, VM packing problems are solved by predicting
demand, followed by a Model Predictive Control (MPC) optimization over a future
horizon. We introduce an approximate formulation of an industrial VM packing
problem as an MILP with soft-constraints parameterized by the predictions.
Recently, predict-and-optimize (PnO) was proposed for end-to-end training of
prediction models by back-propagating the cost of decisions through the
optimization problem. But, PnO is unable to scale to the large prediction
horizons prevalent in cloud computing. To tackle this issue, we propose the
Predict-and-Critic (PnC) framework that outperforms PnO with just a two-step
horizon by leveraging reinforcement learning. PnC jointly trains a prediction
model and a terminal Q function that approximates cost-to-go over a long
horizon, by back-propagating the cost of decisions through the optimization
problem \emph{and from the future}. The terminal Q function allows us to solve
a much smaller two-step horizon optimization problem than the multi-step
horizon necessary in PnO. We evaluate PnO and the PnC framework on two
datasets, three workloads, and with disturbances not modeled in the
optimization problem. We find that PnC significantly improves decision quality
over PnO, even when the optimization problem is not a perfect representation of
reality. We also find that hardening the soft constraints of the MILP and
back-propagating through the constraints improves decision quality for both PnO
and PnC.
- Abstract(参考訳): クラウドコンピューティングは、スケールの経済を通じてコスト削減を約束します。
この約束を実現するために、クラウドコンピューティングベンダは通常、顧客のワークロードを共有ハードウェアに詰め込む、シーケンシャルなリソース割り当て問題を解決する。
仮想マシン(VM)は、共有物理インフラから論理的にユーザー計算を抽象化するのに役立つため、現代のクラウドコンピューティングの基盤を形成する。
伝統的に、VMのパッケージング問題は需要予測によって解決され、続いてモデル予測制御(MPC)の最適化が今後行われる。
予測によりパラメータ化されたソフト制約を持つMILPとして,産業用VMパッケージ問題の近似定式化を導入する。
近年,最適化問題を通じて意思決定コストをバックプロパゲーションすることにより,予測モデルのエンドツーエンドトレーニングを行うための予測最適化(pno)が提案されている。
しかし、PnOはクラウドコンピューティングで広く使われている大きな予測の地平までスケールできない。
この問題に対処するために,強化学習を活用することでPnOを2段階の地平線で上回り,PnC(Predict-and-Critic)フレームワークを提案する。
pncは、最適化問題 \emph{and from the future} を通じて意思決定のコストをバックプロパゲーションすることで、長い地平線を越えるコストを近似する予測モデルと端末q関数を共同で訓練する。
端末 q 関数は pno に必要な多段地平線よりもずっと小さい二段地平線最適化問題を解くことができる。
PnO と PnC フレームワークを2つのデータセット,3つのワークロード,そして最適化問題でモデル化されていない障害で評価する。
pncは,最適化問題は現実の完全な表現ではない場合でも,pnoよりも決定品質が著しく向上することがわかった。
また,MILPのソフト制約を固化させ,制約を緩和することで,PnOおよびPnCの判定品質が向上することがわかった。
関連論文リスト
- End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - CILP: Co-simulation based Imitation Learner for Dynamic Resource
Provisioning in Cloud Computing Environments [13.864161788250856]
レイテンシクリティカルなタスクの主な課題は、積極的にプロビジョニングする将来のワークロード要求を予測することだ。
既存のAIベースのソリューションは、プロビジョニングのオーバーヘッド、異種VMコスト、クラウドシステムの品質(QoS)など、すべての重要な側面を公平に考慮しない傾向があります。
予測と最適化の2つのサブプロブレムとしてVMプロビジョニング問題を定式化するCILPと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-11T09:15:34Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - PECCO: A Profit and Cost-oriented Computation Offloading Scheme in
Edge-Cloud Environment with Improved Moth-flame Optimisation [22.673319784715172]
エッジクラウド計算のオフロードは、クラウドセンタの負担を軽減するための、有望なソリューションである。
そこで本研究では,元のMoth-flame Optimiserの欠陥に対処する改良型Moth-flame optimiser PECCO-MFIを提案する。
論文 参考訳(メタデータ) (2022-08-09T23:26:42Z) - Lazy Lagrangians with Predictions for Online Learning [24.18464455081512]
オンライン凸最適化における時間的差分制約による一般的な問題について考察する。
Follow-The-Regularized-Leaderイテレーションと予測適応動的ステップを組み合わせることで、新しい原始双対アルゴリズムを設計する。
我々の研究は、この制約されたOCO設定のためのFTRLフレームワークを拡張し、各最先端のグレディベースのソリューションより優れています。
論文 参考訳(メタデータ) (2022-01-08T21:49:10Z) - Predict and Optimize: Through the Lens of Learning to Rank [9.434400627011108]
ノイズコントラスト推定は、ソリューションキャッシュのランク付けを学習する場合とみなすことができる。
また、最適化問題を解くことなく、閉じた形で区別できるペアワイズとリストワイズランキングの損失関数も開発する。
論文 参考訳(メタデータ) (2021-12-07T10:11:44Z) - Learning Model Predictive Controllers for Real-Time Ride-Hailing Vehicle
Relocation and Pricing Decisions [15.80796896560034]
大規模配車システムは、個々の要求レベルでのリアルタイムルーティングと、動的価格設定と車両の移動のためのマクロなモデル予測制御(MPC)の最適化を組み合わせることが多い。
本稿では、MPC最適化を学習することで、これらの計算課題に対処する。
結果の機械学習モデルは最適化プロキシとして機能し、その最適解を予測する。
論文 参考訳(メタデータ) (2021-11-05T00:52:15Z) - Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge
Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。
分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T02:48:27Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。