論文の概要: Data Engineering for HPC with Python
- arxiv url: http://arxiv.org/abs/2010.06312v1
- Date: Tue, 13 Oct 2020 11:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-29 05:11:34.973514
- Title: Data Engineering for HPC with Python
- Title(参考訳): PythonによるHPCのデータエンジニアリング
- Authors: Vibhatha Abeykoon, Niranda Perera, Chathura Widanage, Supun
Kamburugamuve, Thejaka Amila Kanewala, Hasara Maithree, Pulasthi
Wickramasinghe, Ahmet Uyar and Geoffrey Fox
- Abstract要約: データエンジニアリングは、さまざまなデータフォーマット、ストレージ、データ抽出、変換、データ移動を扱う。
データエンジニアリングの1つのゴールは、データを元のデータから、ディープラーニングや機械学習アプリケーションで受け入れられるベクトル/行列/テンソルフォーマットに変換することである。
データを表現および処理するためのテーブル抽象化に基づく分散Python APIを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data engineering is becoming an increasingly important part of scientific
discoveries with the adoption of deep learning and machine learning. Data
engineering deals with a variety of data formats, storage, data extraction,
transformation, and data movements. One goal of data engineering is to
transform data from original data to vector/matrix/tensor formats accepted by
deep learning and machine learning applications. There are many structures such
as tables, graphs, and trees to represent data in these data engineering
phases. Among them, tables are a versatile and commonly used format to load and
process data. In this paper, we present a distributed Python API based on table
abstraction for representing and processing data. Unlike existing
state-of-the-art data engineering tools written purely in Python, our solution
adopts high performance compute kernels in C++, with an in-memory table
representation with Cython-based Python bindings. In the core system, we use
MPI for distributed memory computations with a data-parallel approach for
processing large datasets in HPC clusters.
- Abstract(参考訳): データエンジニアリングは、ディープラーニングと機械学習の採用によって、科学的な発見の重要な部分になりつつある。
データエンジニアリングは、さまざまなデータフォーマット、ストレージ、データ抽出、変換、データ移動を扱う。
データエンジニアリングの1つの目標は、データを元のデータから、ディープラーニングや機械学習アプリケーションで受け入れられるベクトル/行列/テンソルフォーマットに変換することである。
これらのデータエンジニアリングフェーズでデータを表現するためのテーブル、グラフ、ツリーなど、多くの構造があります。
その中でも、テーブルは多用途で、データのロードと処理によく使われるフォーマットです。
本稿では,データ表現と処理のためのテーブル抽象化に基づく分散Python APIを提案する。
Pythonで書かれた既存の最先端のデータエンジニアリングツールとは異なり、私たちのソリューションはC++で高性能な計算カーネルを採用し、CythonベースのPythonバインディングを備えたインメモリテーブル表現を実現しています。
コアシステムでは、分散メモリ計算にMPIを使用し、HPCクラスタでの大規模データセット処理にデータ並列アプローチを用いる。
関連論文リスト
- Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - In-depth Analysis On Parallel Processing Patterns for High-Performance
Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。
本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。
ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文 参考訳(メタデータ) (2023-07-03T23:11:03Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - From Strings to Data Science: a Practical Framework for Automated String
Handling [0.4079265319364249]
多くの機械学習ライブラリは、意図した通りに動作するために文字列機能を数値表現に変換する必要がある。
本稿では,ベストプラクティス,ドメイン知識,新しい技術に基づく枠組みを提案する。
異なるタイプの文字列の特徴を自動的に識別し、それに従って処理し、それらを数値表現にエンコードする。
論文 参考訳(メタデータ) (2021-11-02T20:09:03Z) - PTRAIL -- A python package for parallel trajectory data preprocessing [2.348339658768759]
軌道データは、時間とともに空間における位置を変化させる物体の痕跡を表す。
トラジェクトリデータを前処理するように特別に調整されたソフトウェアが必要である。
提案するPTRAILは,数ステップの軌道前処理を行うピソンパッケージである。
論文 参考訳(メタデータ) (2021-08-26T20:14:07Z) - HPTMT: Operator-Based Architecture for ScalableHigh-Performance
Data-Intensive Frameworks [0.0]
High-Performance Matrices and Tables (HPTMT)は、データ集約型アプリケーションのための演算子ベースのアーキテクチャである。
HPTMTは、MPI、HPF、NumPy、Pandas、Modin、PyTorch、Spark、RAPIDS(NVIDIA)、OneAPI(Intel)などのシステムにインスパイアされている。
本稿では,データ集約型アプリケーションのための演算子ベースのアーキテクチャであるHPTMTを提案する。
論文 参考訳(メタデータ) (2021-07-27T13:28:34Z) - giotto-tda: A Topological Data Analysis Toolkit for Machine Learning and
Data Exploration [4.8353738137338755]
giotto-tdaは、高性能なトポロジカルデータ分析と機械学習を統合するPythonライブラリである。
このライブラリの様々な種類のデータを扱う能力は、幅広い事前処理技術に根ざしている。
論文 参考訳(メタデータ) (2020-04-06T10:53:57Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z) - OPFython: A Python-Inspired Optimum-Path Forest Classifier [68.8204255655161]
本稿では,OPFythonと表記されるPythonベースのOptimum-Path Forestフレームワークを提案する。
OPFythonはPythonベースのライブラリなので、C言語よりもフレンドリーな環境とプロトタイピングの作業スペースを提供する。
論文 参考訳(メタデータ) (2020-01-28T15:46:19Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。