論文の概要: NumS: Scalable Array Programming for the Cloud
- arxiv url: http://arxiv.org/abs/2206.14276v1
- Date: Tue, 28 Jun 2022 20:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 21:32:28.955340
- Title: NumS: Scalable Array Programming for the Cloud
- Title(参考訳): nums: クラウド用のスケーラブルな配列プログラミング
- Authors: Melih Elibol, Vinamra Benara, Samyu Yagati, Lianmin Zheng, Alvin
Cheung, Michael I. Jordan, Ion Stoica
- Abstract要約: タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
- 参考スコア(独自算出の注目度): 82.827921577004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientists increasingly rely on Python tools to perform scalable distributed
memory array operations using rich, NumPy-like expressions. However, many of
these tools rely on dynamic schedulers optimized for abstract task graphs,
which often encounter memory and network bandwidth-related bottlenecks due to
sub-optimal data and operator placement decisions. Tools built on the message
passing interface (MPI), such as ScaLAPACK and SLATE, have better scaling
properties, but these solutions require specialized knowledge to use. In this
work, we present NumS, an array programming library which optimizes NumPy-like
expressions on task-based distributed systems. This is achieved through a novel
scheduler called Load Simulated Hierarchical Scheduling (LSHS). LSHS is a local
search method which optimizes operator placement by minimizing maximum memory
and network load on any given node within a distributed system. Coupled with a
heuristic for load balanced data layouts, our approach is capable of attaining
communication lower bounds on some common numerical operations, and our
empirical study shows that LSHS enhances performance on Ray by decreasing
network load by a factor of 2x, requiring 4x less memory, and reducing
execution time by 10x on the logistic regression problem. On terabyte-scale
data, NumS achieves competitive performance to SLATE on DGEMM, up to 20x
speedup over Dask on a key operation for tensor factorization, and a 2x speedup
on logistic regression compared to Dask ML and Spark's MLlib.
- Abstract(参考訳): 科学者は、リッチでnumpyライクな式を使ってスケーラブルな分散メモリ配列操作を行うために、pythonツールにますます依存している。
しかし、これらのツールの多くは、抽象的なタスクグラフに最適化された動的スケジューラに依存しており、メモリやネットワーク帯域幅に関連するボトルネックにしばしば遭遇する。
メッセージパッシングインターフェース(MPI)上に構築されたScaLAPACKやSLATEのようなツールは、より優れたスケーリング特性を持つが、これらのソリューションを使うには特別な知識が必要である。
本研究では,タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、分散システム内の任意のノード上の最大メモリとネットワーク負荷を最小限に抑えることで、オペレータ配置を最適化するローカル検索手法である。
負荷バランスデータレイアウトのヒューリスティックと組み合わせることで、一般的な数値演算における通信低境界を実現することができ、実験により、LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題に対して実行時間を10倍減らして、Rayの性能を向上させることを示す。
テラバイト規模のデータでは、NumSはDGEMM上でのSLATEの競合性能、テンソル分解のキー操作でのDaskの最大20倍のスピードアップ、Dask MLやSparkのMLlibと比較してロジスティック回帰の2倍のスピードアップを実現している。
関連論文リスト
- vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - A Theory of I/O-Efficient Sparse Neural Network Inference [17.862408781750126]
機械学習モデルは、その精度を速い速度で向上させるため、エネルギーと計算資源の需要は増大する。
低レベルでは、これらのリソースの大部分は異なるメモリユニット間でのデータ移動によって消費されます。
我々は、スパースフィードフォワードニューラルネットワーク(FFNN)推論に必要なI/Oを厳密に理論的に分析する。
論文 参考訳(メタデータ) (2023-01-03T11:23:46Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data
Analytics [0.0]
HeATは、大規模並列処理のための配列ベースの数値プログラミングフレームワークで、簡単に使えるNumPyライクなAPIがある。
HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。
同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。
論文 参考訳(メタデータ) (2020-07-27T13:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。