論文の概要: LazyBatching: An SLA-aware Batching System for Cloud Machine Learning
Inference
- arxiv url: http://arxiv.org/abs/2010.13103v1
- Date: Sun, 25 Oct 2020 12:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:12:51.070098
- Title: LazyBatching: An SLA-aware Batching System for Cloud Machine Learning
Inference
- Title(参考訳): lazybatching:クラウド機械学習推論のためのsla対応バッチシステム
- Authors: Yujeong Choi, Yunseong Kim, Minsoo Rhu
- Abstract要約: 本稿では,個々のグラフノードの粒度におけるスケジューリングと遅延推論の両方を考慮したSLA対応システムを提案する。
また,Lazy推論を効率よくバッチ・オブ・コストで組み合わせることで,平均15倍の性能向上が得られることを示した。
- 参考スコア(独自算出の注目度): 0.9854614058492648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cloud ML inference systems, batching is an essential technique to increase
throughput which helps optimize total-cost-of-ownership. Prior graph batching
combines the individual DNN graphs into a single one, allowing multiple inputs
to be concurrently executed in parallel. We observe that the coarse-grained
graph batching becomes suboptimal in effectively handling the dynamic inference
request traffic, leaving significant performance left on the table. This paper
proposes LazyBatching, an SLA-aware batching system that considers both
scheduling and batching in the granularity of individual graph nodes, rather
than the entire graph for flexible batching. We show that LazyBatching can
intelligently determine the set of nodes that can be efficiently batched
together, achieving an average 15x, 1.5x, and 5.5x improvement than graph
batching in terms of average response time, throughput, and SLA satisfaction,
respectively.
- Abstract(参考訳): クラウドML推論システムでは、バッチ処理はスループットを向上させるための重要なテクニックであり、総コストの最適化に役立つ。
以前のグラフバッチ処理では、個々のDNNグラフを1つのグラフに組み合わせ、複数の入力を並列に実行できる。
粗いグラフのバッチ処理は動的推論要求のトラフィックを効果的に処理するのに最適であり、テーブル上での重要な性能を残している。
本稿では、フレキシブルなバッチ処理のためのグラフ全体ではなく、個々のグラフノードの粒度のスケジューリングとバッチ化を両立するSLA対応バッチ処理システムであるLazyBatchingを提案する。
平均応答時間,スループット,SLA満足度の観点から,LazyBatchingはグラフバッチよりも平均15x,1.5x,5.5xの改善を実現し,効率的にバッチ化できるノードの集合をインテリジェントに決定できることを示す。
関連論文リスト
- Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - GraphHash: Graph Clustering Enables Parameter Efficiency in Recommender Systems [51.64666652517944]
本稿では,モジュール性に基づく二部グラフクラスタリングを利用したグラフベースの最初のアプローチであるGraphHashを紹介する。
高速クラスタリングアルゴリズムを使用することで、GraphHashはプリプロセス中のメッセージパッシングの計算効率のよいプロキシとして機能する。
実験では、GraphHashは検索およびクリックスルーレート予測タスクの両方において、多様なハッシュベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-12-23T03:37:58Z) - Unifews: Unified Entry-Wise Sparsification for Efficient Graph Neural Network [10.556366638048384]
グラフニューラルネットワーク(GNN)は、様々なグラフ学習タスクにおいて有望な性能を示すが、リソース集約型計算のコストがかかる。
従来の研究では,グラフレベルやネットワークレベルのスペーシフィケーション技術を活用して,計算予算の削減を試みた。
個々の行列要素を考慮したエントリワイズ方式で2つの演算を統一するUnifewsを提案する。
論文 参考訳(メタデータ) (2024-03-20T03:07:30Z) - Graph Parsing Networks [64.5041886737007]
本稿では,効率的なグラフ解析アルゴリズムを提案する。
結果として得られるグラフパーシングネットワーク(GPN)は、個々のグラフに対してパーソナライズされたプーリング構造を適応的に学習する。
論文 参考訳(メタデータ) (2024-02-22T09:08:36Z) - GLISP: A Scalable GNN Learning System by Exploiting Inherent Structural
Properties of Graphs [5.410321469222541]
産業規模グラフのためのサンプリングベースGNN学習システムであるGLISPを提案する。
GLISPは、グラフパーティショナ、グラフサンプリングサービス、グラフ推論エンジンの3つのコアコンポーネントで構成されている。
実験の結果、GLISPはトレーニングと推論タスクのために既存のGNNシステムよりも最大6.53タイム、70.77タイムのスピードアップを達成した。
論文 参考訳(メタデータ) (2024-01-06T02:59:24Z) - Efficient Heterogeneous Graph Learning via Random Projection [58.4138636866903]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Distributed Graph Embedding with Information-Oriented Random Walks [16.290803469068145]
グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。
数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークであるDistGERを提案する。
D DistGERは2.33x-129x加速、機械間通信の45%削減、下流タスクの10%改善を示す。
論文 参考訳(メタデータ) (2023-03-28T03:11:21Z) - GCNScheduler: Scheduling Distributed Computing Applications using Graph
Convolutional Networks [12.284934135116515]
グラフ畳み込み型ネットワークベーススケジューラ(GCNScheduler)を提案する。
タスク間データ依存関係構造とネットワーク設定を慎重に入力グラフに統合することにより、GCNSchedulerは所定の目的のためにタスクを効率的にスケジュールすることができる。
従来のHEFTアルゴリズムよりもマインパンが良く、スループット指向のHEFTとほぼ同じスループットであることを示す。
論文 参考訳(メタデータ) (2021-10-22T01:54:10Z) - Balanced Order Batching with Task-Oriented Graph Clustering [28.05598654297136]
本稿では,BTOGCN(Ba balanced Task- Clustering Network)というエンドツーエンドの学習・最適化フレームワークを提案する。
BOBPは、中国最大のロジスティクスプラットフォームであるCainiaoの買収プロセスに端を発する。
論文 参考訳(メタデータ) (2020-08-19T08:42:50Z) - Scaling Graph Neural Networks with Approximate PageRank [64.92311737049054]
GNNにおける情報拡散の効率的な近似を利用したPPRGoモデルを提案する。
高速であることに加えて、PPRGoは本質的にスケーラブルであり、業界設定で見られるような大規模なデータセットに対して、自明に並列化することができる。
このグラフのすべてのノードに対するPPRGoのトレーニングとラベルの予測には1台のマシンで2分未満で、同じグラフ上の他のベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2020-07-03T09:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。