論文の概要: LazyBatching: An SLA-aware Batching System for Cloud Machine Learning
Inference
- arxiv url: http://arxiv.org/abs/2010.13103v1
- Date: Sun, 25 Oct 2020 12:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:12:51.070098
- Title: LazyBatching: An SLA-aware Batching System for Cloud Machine Learning
Inference
- Title(参考訳): lazybatching:クラウド機械学習推論のためのsla対応バッチシステム
- Authors: Yujeong Choi, Yunseong Kim, Minsoo Rhu
- Abstract要約: 本稿では,個々のグラフノードの粒度におけるスケジューリングと遅延推論の両方を考慮したSLA対応システムを提案する。
また,Lazy推論を効率よくバッチ・オブ・コストで組み合わせることで,平均15倍の性能向上が得られることを示した。
- 参考スコア(独自算出の注目度): 0.9854614058492648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cloud ML inference systems, batching is an essential technique to increase
throughput which helps optimize total-cost-of-ownership. Prior graph batching
combines the individual DNN graphs into a single one, allowing multiple inputs
to be concurrently executed in parallel. We observe that the coarse-grained
graph batching becomes suboptimal in effectively handling the dynamic inference
request traffic, leaving significant performance left on the table. This paper
proposes LazyBatching, an SLA-aware batching system that considers both
scheduling and batching in the granularity of individual graph nodes, rather
than the entire graph for flexible batching. We show that LazyBatching can
intelligently determine the set of nodes that can be efficiently batched
together, achieving an average 15x, 1.5x, and 5.5x improvement than graph
batching in terms of average response time, throughput, and SLA satisfaction,
respectively.
- Abstract(参考訳): クラウドML推論システムでは、バッチ処理はスループットを向上させるための重要なテクニックであり、総コストの最適化に役立つ。
以前のグラフバッチ処理では、個々のDNNグラフを1つのグラフに組み合わせ、複数の入力を並列に実行できる。
粗いグラフのバッチ処理は動的推論要求のトラフィックを効果的に処理するのに最適であり、テーブル上での重要な性能を残している。
本稿では、フレキシブルなバッチ処理のためのグラフ全体ではなく、個々のグラフノードの粒度のスケジューリングとバッチ化を両立するSLA対応バッチ処理システムであるLazyBatchingを提案する。
平均応答時間,スループット,SLA満足度の観点から,LazyBatchingはグラフバッチよりも平均15x,1.5x,5.5xの改善を実現し,効率的にバッチ化できるノードの集合をインテリジェントに決定できることを示す。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - Unifews: Unified Entry-Wise Sparsification for Efficient Graph Neural Network [10.556366638048384]
グラフニューラルネットワーク(GNN)は、様々なグラフ学習タスクにおいて有望な性能を示すが、リソース集約型計算のコストがかかる。
従来の研究では,グラフレベルやネットワークレベルのスペーシフィケーション技術を活用して,計算予算の削減を試みた。
個々の行列要素を考慮したエントリワイズ方式で2つの演算を統一するUnifewsを提案する。
論文 参考訳(メタデータ) (2024-03-20T03:07:30Z) - Graph Parsing Networks [64.5041886737007]
本稿では,効率的なグラフ解析アルゴリズムを提案する。
結果として得られるグラフパーシングネットワーク(GPN)は、個々のグラフに対してパーソナライズされたプーリング構造を適応的に学習する。
論文 参考訳(メタデータ) (2024-02-22T09:08:36Z) - GLISP: A Scalable GNN Learning System by Exploiting Inherent Structural
Properties of Graphs [5.410321469222541]
産業規模グラフのためのサンプリングベースGNN学習システムであるGLISPを提案する。
GLISPは、グラフパーティショナ、グラフサンプリングサービス、グラフ推論エンジンの3つのコアコンポーネントで構成されている。
実験の結果、GLISPはトレーニングと推論タスクのために既存のGNNシステムよりも最大6.53タイム、70.77タイムのスピードアップを達成した。
論文 参考訳(メタデータ) (2024-01-06T02:59:24Z) - Efficient Heterogeneous Graph Learning via Random Projection [58.4138636866903]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Distributed Graph Embedding with Information-Oriented Random Walks [16.290803469068145]
グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。
数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークであるDistGERを提案する。
D DistGERは2.33x-129x加速、機械間通信の45%削減、下流タスクの10%改善を示す。
論文 参考訳(メタデータ) (2023-03-28T03:11:21Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - GCNScheduler: Scheduling Distributed Computing Applications using Graph
Convolutional Networks [12.284934135116515]
グラフ畳み込み型ネットワークベーススケジューラ(GCNScheduler)を提案する。
タスク間データ依存関係構造とネットワーク設定を慎重に入力グラフに統合することにより、GCNSchedulerは所定の目的のためにタスクを効率的にスケジュールすることができる。
従来のHEFTアルゴリズムよりもマインパンが良く、スループット指向のHEFTとほぼ同じスループットであることを示す。
論文 参考訳(メタデータ) (2021-10-22T01:54:10Z) - Balanced Order Batching with Task-Oriented Graph Clustering [28.05598654297136]
本稿では,BTOGCN(Ba balanced Task- Clustering Network)というエンドツーエンドの学習・最適化フレームワークを提案する。
BOBPは、中国最大のロジスティクスプラットフォームであるCainiaoの買収プロセスに端を発する。
論文 参考訳(メタデータ) (2020-08-19T08:42:50Z) - Scaling Graph Neural Networks with Approximate PageRank [64.92311737049054]
GNNにおける情報拡散の効率的な近似を利用したPPRGoモデルを提案する。
高速であることに加えて、PPRGoは本質的にスケーラブルであり、業界設定で見られるような大規模なデータセットに対して、自明に並列化することができる。
このグラフのすべてのノードに対するPPRGoのトレーニングとラベルの予測には1台のマシンで2分未満で、同じグラフ上の他のベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2020-07-03T09:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。