論文の概要: SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based
Platforms
- arxiv url: http://arxiv.org/abs/2301.12865v2
- Date: Sun, 2 Apr 2023 06:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 21:40:06.023816
- Title: SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based
Platforms
- Title(参考訳): GPUプラットフォーム上での効率的な推論のためのSMDPベースの動的バッチ
- Authors: Yaodan Xu, Jingzhou Sun, Sheng Zhou, Zhisheng Niu
- Abstract要約: 本稿では、効率とレイテンシのバランスをとる動的グラフィックポリシーを提供することを目的とする。
提案されたソリューションは、消費電力とレイテンシのバランスをとる上で、顕著な柔軟性がある。
- 参考スコア(独自算出の注目度): 22.139846483097557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In up-to-date machine learning (ML) applications on cloud or edge computing
platforms, batching is an important technique for providing efficient and
economical services at scale. In particular, parallel computing resources on
the platforms, such as graphics processing units (GPUs), have higher
computational and energy efficiency with larger batch sizes. However, larger
batch sizes may also result in longer response time, and thus it requires a
judicious design. This paper aims to provide a dynamic batching policy that
strikes a balance between efficiency and latency. The GPU-based inference
service is modeled as a batch service queue with batch-size dependent
processing time. Then, the design of dynamic batching is a continuous-time
average-cost problem, and is formulated as a semi-Markov decision process
(SMDP) with the objective of minimizing the weighted sum of average response
time and average power consumption. The optimal policy is acquired by solving
an associated discrete-time Markov decision process (MDP) problem with finite
state approximation and "discretization". By introducing an abstract cost to
reflect the impact of "tail" states, the space complexity and the time
complexity of the procedure can decrease by 63.5% and 98%, respectively. Our
results show that the optimal policies potentially possess a control limit
structure. Numerical results also show that SMDP-based batching policies can
adapt to different traffic intensities and outperform other benchmark policies.
Furthermore, the proposed solution has notable flexibility in balancing power
consumption and latency.
- Abstract(参考訳): クラウドやエッジコンピューティングプラットフォーム上の最新の機械学習(ML)アプリケーションでは、バッチ処理は大規模に効率的かつ経済的サービスを提供する上で重要なテクニックである。
特に、gpu(graphics processing unit)のようなプラットフォーム上の並列コンピューティングリソースは、バッチサイズが大きいほど高い計算効率とエネルギー効率を持つ。
しかし、バッチサイズが大きくなると応答時間が長くなるため、適切な設計が必要となる。
本稿では,効率とレイテンシのバランスをとる動的バッチポリシを提供することを目的としている。
gpuベースの推論サービスは、バッチサイズの依存処理時間を持つバッチサービスキューとしてモデル化される。
次に、動的バッチの設計は連続時間平均コスト問題であり、平均応答時間と平均消費電力の重み付け和を最小化することを目的としてセミマルコフ決定プロセス(smdp)として定式化される。
最適ポリシーは、関連する離散時間マルコフ決定過程(MDP)問題を有限状態近似と「離散化」で解くことで得られる。
尾」状態の影響を反映する抽象的なコストを導入することで、手順の空間的複雑さと時間的複雑さをそれぞれ63.5%と98%減少させることができる。
その結果,最適政策は制御限界構造を持つ可能性が示唆された。
また,SMDPベースのバッチ処理ポリシは,異なるトラフィック強度に適応し,他のベンチマークポリシよりも優れていることを示す。
さらに,提案手法は,消費電力とレイテンシのバランスにおいて,柔軟性に優れる。
関連論文リスト
- When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Fractional Deep Reinforcement Learning for Age-Minimal Mobile Edge
Computing [11.403989519949173]
本研究は,AOI( Age-of-Information)によって測定された計算集約更新の時系列に焦点をあてる。
我々は,AoIのタスク更新とオフロードポリシを分断形式で共同で最適化する方法について検討する。
実験の結果,提案アルゴリズムは,いくつかの非フラクタルベンチマークと比較して平均AoIを57.6%削減できることがわかった。
論文 参考訳(メタデータ) (2023-12-16T11:13:40Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - Faster Approximate Dynamic Programming by Freezing Slow States [5.6928413790238865]
高速低速構造を持つ無限水平マルコフ決定過程(MDP)を考察する。
このような構造は、シーケンシャルな決定を高周波で行う必要がある実世界の問題では一般的である。
本稿では、遅い状態の「凍結」という概念に基づく近似動的プログラミングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-03T01:35:24Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - MCDS: AI Augmented Workflow Scheduling in Mobile Edge Cloud Computing
Systems [12.215537834860699]
近年,エッジコンピューティングプラットフォームの低応答時間を利用してアプリケーション品質・オブ・サービス(QoS)を最適化するスケジューリング手法が提案されている。
本稿では,Deep Surrogate Models を用いたモンテカルロ学習を用いて,モバイルエッジクラウドコンピューティングシステムにおけるワークフローアプリケーションを効率的にスケジューリングする手法を提案する。
論文 参考訳(メタデータ) (2021-12-14T10:00:01Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。