Fugu-MT 論文翻訳(概要): LazyBatching: An SLA-aware Batching System for Cloud Machine Learning Inference

論文の概要: LazyBatching: An SLA-aware Batching System for Cloud Machine Learning Inference

arxiv url: http://arxiv.org/abs/2010.13103v1
Date: Sun, 25 Oct 2020 12:13:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 04:12:51.070098
Title: LazyBatching: An SLA-aware Batching System for Cloud Machine Learning Inference
Title（参考訳）: lazybatching:クラウド機械学習推論のためのsla対応バッチシステム
Authors: Yujeong Choi, Yunseong Kim, Minsoo Rhu
Abstract要約: 本稿では,個々のグラフノードの粒度におけるスケジューリングと遅延推論の両方を考慮したSLA対応システムを提案する。また,Lazy推論を効率よくバッチ・オブ・コストで組み合わせることで,平均15倍の性能向上が得られることを示した。
参考スコア（独自算出の注目度）: 0.9854614058492648
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In cloud ML inference systems, batching is an essential technique to increase throughput which helps optimize total-cost-of-ownership. Prior graph batching combines the individual DNN graphs into a single one, allowing multiple inputs to be concurrently executed in parallel. We observe that the coarse-grained graph batching becomes suboptimal in effectively handling the dynamic inference request traffic, leaving significant performance left on the table. This paper proposes LazyBatching, an SLA-aware batching system that considers both scheduling and batching in the granularity of individual graph nodes, rather than the entire graph for flexible batching. We show that LazyBatching can intelligently determine the set of nodes that can be efficiently batched together, achieving an average 15x, 1.5x, and 5.5x improvement than graph batching in terms of average response time, throughput, and SLA satisfaction, respectively.
Abstract（参考訳）: クラウドML推論システムでは、バッチ処理はスループットを向上させるための重要なテクニックであり、総コストの最適化に役立つ。以前のグラフバッチ処理では、個々のDNNグラフを1つのグラフに組み合わせ、複数の入力を並列に実行できる。粗いグラフのバッチ処理は動的推論要求のトラフィックを効果的に処理するのに最適であり、テーブル上での重要な性能を残している。本稿では、フレキシブルなバッチ処理のためのグラフ全体ではなく、個々のグラフノードの粒度のスケジューリングとバッチ化を両立するSLA対応バッチ処理システムであるLazyBatchingを提案する。平均応答時間,スループット,SLA満足度の観点から,LazyBatchingはグラフバッチよりも平均15x,1.5x,5.5xの改善を実現し,効率的にバッチ化できるノードの集合をインテリジェントに決定できることを示す。

関連論文リスト

Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。 Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文参考訳（メタデータ） (2025-05-22T05:15:27Z)
RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.10503898336799]
完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。 RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文参考訳（メタデータ） (2025-03-25T03:21:48Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
GraphHash: Graph Clustering Enables Parameter Efficiency in Recommender Systems [51.64666652517944]
本稿では,モジュール性に基づく二部グラフクラスタリングを利用したグラフベースの最初のアプローチであるGraphHashを紹介する。高速クラスタリングアルゴリズムを使用することで、GraphHashはプリプロセス中のメッセージパッシングの計算効率のよいプロキシとして機能する。実験では、GraphHashは検索およびクリックスルーレート予測タスクの両方において、多様なハッシュベースラインを大幅に上回る。
論文参考訳（メタデータ） (2024-12-23T03:37:58Z)
Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-26T18:38:38Z)
Unifews: Unified Entry-Wise Sparsification for Efficient Graph Neural Network [10.556366638048384]
グラフニューラルネットワーク(GNN)は、様々なグラフ学習タスクにおいて有望な性能を示すが、リソース集約型計算のコストがかかる。従来の研究では,グラフレベルやネットワークレベルのスペーシフィケーション技術を活用して,計算予算の削減を試みた。個々の行列要素を考慮したエントリワイズ方式で2つの演算を統一するUnifewsを提案する。
論文参考訳（メタデータ） (2024-03-20T03:07:30Z)
Graph Parsing Networks [64.5041886737007]
本稿では,効率的なグラフ解析アルゴリズムを提案する。結果として得られるグラフパーシングネットワーク(GPN)は、個々のグラフに対してパーソナライズされたプーリング構造を適応的に学習する。
論文参考訳（メタデータ） (2024-02-22T09:08:36Z)
GLISP: A Scalable GNN Learning System by Exploiting Inherent Structural Properties of Graphs [5.410321469222541]
産業規模グラフのためのサンプリングベースGNN学習システムであるGLISPを提案する。 GLISPは、グラフパーティショナ、グラフサンプリングサービス、グラフ推論エンジンの3つのコアコンポーネントで構成されている。実験の結果、GLISPはトレーニングと推論タスクのために既存のGNNシステムよりも最大6.53タイム、70.77タイムのスピードアップを達成した。
論文参考訳（メタデータ） (2024-01-06T02:59:24Z)
Efficient Heterogeneous Graph Learning via Random Projection [58.4138636866903]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文参考訳（メタデータ） (2023-10-23T01:25:44Z)
T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文参考訳（メタデータ） (2023-10-05T02:58:29Z)
Distributed Graph Embedding with Information-Oriented Random Walks [16.290803469068145]
グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークであるDistGERを提案する。 D DistGERは2.33x-129x加速、機械間通信の45%削減、下流タスクの10%改善を示す。
論文参考訳（メタデータ） (2023-03-28T03:11:21Z)
Scalable Graph Convolutional Network Training on Distributed-Memory Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-09T17:51:13Z)
Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文参考訳（メタデータ） (2022-09-20T14:41:37Z)
GCNScheduler: Scheduling Distributed Computing Applications using Graph Convolutional Networks [12.284934135116515]
グラフ畳み込み型ネットワークベーススケジューラ(GCNScheduler)を提案する。タスク間データ依存関係構造とネットワーク設定を慎重に入力グラフに統合することにより、GCNSchedulerは所定の目的のためにタスクを効率的にスケジュールすることができる。従来のHEFTアルゴリズムよりもマインパンが良く、スループット指向のHEFTとほぼ同じスループットであることを示す。
論文参考訳（メタデータ） (2021-10-22T01:54:10Z)
Balanced Order Batching with Task-Oriented Graph Clustering [28.05598654297136]
本稿では,BTOGCN(Ba balanced Task- Clustering Network)というエンドツーエンドの学習・最適化フレームワークを提案する。 BOBPは、中国最大のロジスティクスプラットフォームであるCainiaoの買収プロセスに端を発する。
論文参考訳（メタデータ） (2020-08-19T08:42:50Z)
Scaling Graph Neural Networks with Approximate PageRank [64.92311737049054]
GNNにおける情報拡散の効率的な近似を利用したPPRGoモデルを提案する。高速であることに加えて、PPRGoは本質的にスケーラブルであり、業界設定で見られるような大規模なデータセットに対して、自明に並列化することができる。このグラフのすべてのノードに対するPPRGoのトレーニングとラベルの予測には1台のマシンで2分未満で、同じグラフ上の他のベースラインをはるかに上回ります。
論文参考訳（メタデータ） (2020-07-03T09:30:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。