Fugu-MT 論文翻訳(概要): HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data Analytics

論文の概要: HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data Analytics

arxiv url: http://arxiv.org/abs/2007.13552v2
Date: Wed, 11 Nov 2020 08:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-06 11:55:07.744313
Title: HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data Analytics
Title（参考訳）: HeAT - データ分析のための分散GPUアクセラレーションテンソルフレームワーク
Authors: Markus G\"otz, Daniel Coquelin, Charlotte Debus, Kai Krajsek, Claudia Comito, Philipp Knechtges, Bj\"orn Hagemeier, Michael Tarnawa, Simon Hanselmann, Martin Siggel, Achim Basermann, Achim Streit
Abstract要約: HeATは、大規模並列処理のための配列ベースの数値プログラミングフレームワークで、簡単に使えるNumPyライクなAPIがある。 HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To cope with the rapid growth in available data, the efficiency of data analysis and machine learning libraries has recently received increased attention. Although great advancements have been made in traditional array-based computations, most are limited by the resources available on a single computation node. Consequently, novel approaches must be made to exploit distributed resources, e.g. distributed memory architectures. To this end, we introduce HeAT, an array-based numerical programming framework for large-scale parallel processing with an easy-to-use NumPy-like API. HeAT utilizes PyTorch as a node-local eager execution engine and distributes the workload on arbitrarily large high-performance computing systems via MPI. It provides both low-level array computations, as well as assorted higher-level algorithms. With HeAT, it is possible for a NumPy user to take full advantage of their available resources, significantly lowering the barrier to distributed data analysis. When compared to similar frameworks, HeAT achieves speedups of up to two orders of magnitude.
Abstract（参考訳）: 利用可能なデータの急速な増加に対処するため,データ解析と機械学習ライブラリの効率性が最近注目されている。従来の配列ベースの計算では大きな進歩があったが、ほとんどが単一の計算ノードで利用可能なリソースによって制限されている。そのため、分散メモリアーキテクチャなど、分散リソースを利用するための新しいアプローチが必要となる。そこで我々は,大規模並列処理のための配列ベースの数値プログラミングフレームワークであるHeATを紹介した。 HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。低レベル配列の計算と、様々な高レベルアルゴリズムを提供する。 HeATを使用すると、NumPyユーザは利用可能なリソースを最大限に活用でき、分散データ分析の障壁を大幅に減らすことができる。同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。

関連論文リスト

Resource-Adaptive Successive Doubling for Hyperparameter Optimization with Large Datasets on High-Performance Computing Systems [0.4334105740533729]
本稿では,資源適応型逐次二重化アルゴリズム(RASDA)を提案する。リソース適応型逐次二重化スキームと非同期逐次Halving Algorithm(ASHA)を組み合わせる。ニューラルネットワーク(NN)のさまざまなタイプに適用され、コンピュータビジョン(CV)、計算流体力学(CFD)、追加製造(AM)ドメインからの大規模なデータセットでトレーニングされる。
論文参考訳（メタデータ） (2024-12-03T11:25:48Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
Many-body computing on Field Programmable Gate Arrays [5.3808713424582395]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。これにより、モンテカルロアルゴリズムのCPUベースの計算に比べて10倍の高速化が達成された。 FPGAを多体基底状態計算のための典型的なテンソルネットワークアルゴリズムの高速化に利用した。
論文参考訳（メタデータ） (2024-02-09T14:01:02Z)
TorchSparse++: Efficient Training and Inference Framework for Sparse Convolution on GPUs [20.4238781638402]
スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。 TorchSparse++は、両方の世界のベストを達成するための新しいGPUライブラリです。
論文参考訳（メタデータ） (2023-10-25T21:02:38Z)
High Performance Computing Applied to Logistic Regression: A CPU and GPU Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文参考訳（メタデータ） (2023-08-19T14:49:37Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)
Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文参考訳（メタデータ） (2020-04-13T23:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。