Fugu-MT 論文翻訳(概要): Helix: Serving Large Language Models over Heterogeneous GPUs and Network via Max-Flow

論文の概要: Helix: Serving Large Language Models over Heterogeneous GPUs and Network via Max-Flow

arxiv url: http://arxiv.org/abs/2406.01566v2
Date: Wed, 05 Mar 2025 20:00:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.392349
Title: Helix: Serving Large Language Models over Heterogeneous GPUs and Network via Max-Flow
Title（参考訳）: Helix: Max-Flowによる異種GPUとネットワーク上での大規模言語モデルの実現
Authors: Yixuan Mei, Yonghao Zhuang, Xupeng Miao, Juncheng Yang, Zhihao Jia, Rashmi Vinayak,
Abstract要約: Helixは、ヘテロジニアスGPUクラスタで動作する、高レイテンシで低スループットの大規模言語モデル(LLM)のための分散システムである。 Helixはスループットを最大3.3倍改善し、既存のアプローチと比較して、それぞれ66%、デコード遅延を最大24%削減する。
参考スコア（独自算出の注目度）: 12.819697340895178
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces Helix, a distributed system for high-throughput, low-latency large language model (LLM) serving in heterogeneous GPU clusters. The key idea behind Helix is to formulate inference computation of LLMs over heterogeneous GPUs and network connections as a max-flow problem on directed, weighted graphs, whose nodes represent GPU instances and edges capture both GPU and network heterogeneity through their capacities. Helix then uses a mixed integer linear programming (MILP) algorithm to discover highly optimized strategies to serve LLMs on heterogeneous GPUs. This approach allows Helix to jointly optimize model placement and request scheduling, two highly entangled tasks in heterogeneous LLM serving. Our evaluation on several heterogeneous clusters ranging from 24 to 42 GPU nodes shows that Helix improves serving throughput by up to 3.3x and reduces prompting and decoding latency by up to 66% and 24%, respectively, compared to existing approaches. Helix is available at https://github.com/Thesys-lab/Helix-ASPLOS25.
Abstract（参考訳）: 本稿では、異種GPUクラスタで動作する高スループット低レイテンシ大言語モデル(LLM)のための分散システムHelixを紹介する。 Helixの背景にある重要な考え方は、ノードがGPUインスタンスとエッジを表現し、そのキャパシティを通じてGPUとネットワークのヘテロジニティをキャプチャする、有向重み付きグラフ上での最大フロー問題として、異種GPUとネットワーク接続上のLLMの推論計算を定式化することである。 Helixは、混合整数線形プログラミング(MILP)アルゴリズムを使用して、ヘテロジニアスGPU上でLLMを提供する高度に最適化された戦略を発見する。このアプローチにより、Helixはモデル配置と要求スケジューリングを共同で最適化できる。 24から42のGPUノードを含む複数の異種クラスタに対する評価では、Helixはスループットを最大3.3倍改善し、既存のアプローチと比較して、それぞれ66%、デコードレイテンシを最大24%削減している。 Helixはhttps://github.com/Thesys-lab/Helix-ASPLOS25で入手できる。

関連論文リスト

Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
A GPU-Accelerated Bi-linear ADMM Algorithm for Distributed Sparse Machine Learning [4.258375398293221]
Bi-cADMMは、計算ノードのネットワーク上で定義された大規模正規化されたスパース機械学習問題を解決することを目的としている。 Bi-cADMMはParallel Sparse Fitting Toolboxと呼ばれるオープンソースのPythonパッケージで実装されている。
論文参考訳（メタデータ） (2024-05-25T15:11:34Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。 LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文参考訳（メタデータ） (2024-02-27T14:21:56Z)
Distributed Matrix-Based Sampling for Graph Neural Network Training [0.0]
本稿では,スパース行列乗算(SpGEMM)としてサンプリングを表現し,複数のミニバッチを同時にサンプリングする行列ベースバルクサンプリング手法を提案する。入力グラフトポロジが1つのデバイスに収まらない場合、このグラフを分散し、通信回避型SpGEMMアルゴリズムを用いてGNNミニバッチサンプリングをスケールする。新たなサンプリング方法に加えて,行列に基づくバルクサンプリング手法を用いて,エンドツーエンドのトレーニング結果を提供するパイプラインを導入する。
論文参考訳（メタデータ） (2023-11-06T06:40:43Z)
Boosting the effective performance of massively parallel tensor network state algorithms on hybrid CPU-GPU based architectures via non-Abelian symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。提案手法の有効性能は250-500TFLOPSと推定される。
論文参考訳（メタデータ） (2023-09-23T07:49:53Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
VoGE: A Differentiable Volume Renderer using Gaussian Ellipsoids for Analysis-by-Synthesis [62.47221232706105]
本稿では,ガウス再構成カーネルをボリュームプリミティブとして利用するVoGEを提案する。本稿では,VoGEを用いて効率よくレンダリングを行うために,体積密度集約と粗大な描画戦略に関する近似クローズフォーム解を提案する。 VoGEは、オブジェクトポーズ推定、形状/テクスチャフィッティング、推論など、様々な視覚タスクに適用された場合、SoTAより優れている。
論文参考訳（メタデータ） (2022-05-30T19:52:11Z)
Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文参考訳（メタデータ） (2022-02-19T03:49:21Z)
Geometric Graph Representation Learning via Maximizing Rate Reduction [73.6044873825311]
学習ノード表現は、コミュニティ検出やノード分類などのグラフ解析において、さまざまな下流タスクの恩恵を受ける。教師なしの方法でノード表現を学習するための幾何学グラフ表現学習(G2R)を提案する。 G2R は異なるグループ内のノードを異なる部分空間にマッピングし、各部分空間はコンパクトで異なる部分空間が分散される。
論文参考訳（メタデータ） (2022-02-13T07:46:24Z)
Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文参考訳（メタデータ） (2021-09-10T07:01:15Z)
Fast and Scalable Optimal Transport for Brain Tractograms [4.610968512889579]
線形メモリフットプリント上での正規化最適輸送問題を解くための新しいマルチスケールアルゴリズムを提案する。本手法は, ファイバー束やトラック密度マップとしてモデル化された脳幹図に対して有効性を示す。
論文参考訳（メタデータ） (2021-07-05T13:28:41Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
Picasso: A CUDA-based Library for Deep Learning over 3D Meshes [46.8917772877766]
複雑な実世界の3dメッシュ上でディープラーニングを行うための,新たなモジュールからなるライブラリであるpicassoを提案する。我々は,ネットワーク解像度の低減を図るために,GPU加速メッシュデシメーションを設計する。 S3DIS上での競合セグメンテーション結果を用いた提案モジュールの有効性を実証する。
論文参考訳（メタデータ） (2021-03-28T08:04:50Z)
Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文参考訳（メタデータ） (2020-10-29T18:49:54Z)
Sliced Iterative Normalizing Flows [7.6146285961466]
我々は,任意の確率分布関数(PDF)を対象のPDFに変換することができる反復型(欲求型)ディープラーニング(DL)アルゴリズムを開発した。本アルゴリズムの特殊な場合として,データから潜在空間(GIS)にマップする2つの反復正規化フロー(SINF)モデルを導入する。
論文参考訳（メタデータ） (2020-07-01T18:00:04Z)
Local Graph Clustering with Network Lasso [90.66817876491052]
局所グラフクラスタリングのためのネットワークLasso法の統計的および計算的性質について検討する。 nLassoによって提供されるクラスタは、クラスタ境界とシードノードの間のネットワークフローを通じて、エレガントに特徴付けられる。
論文参考訳（メタデータ） (2020-04-25T17:52:05Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。