論文の概要: HPTMT: Operator-Based Architecture for ScalableHigh-Performance
Data-Intensive Frameworks
- arxiv url: http://arxiv.org/abs/2107.12807v1
- Date: Tue, 27 Jul 2021 13:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 20:14:33.841719
- Title: HPTMT: Operator-Based Architecture for ScalableHigh-Performance
Data-Intensive Frameworks
- Title(参考訳): HPTMT: スケーラブルな高性能データ集約フレームワークのためのオペレータベースのアーキテクチャ
- Authors: Supun Kamburugamuve, Chathura Widanage, Niranda Perera, Vibhatha
Abeykoon, Ahmet Uyar, Thejaka Amila Kanewala, Gregor von Laszewski, and
Geoffrey Fox
- Abstract要約: High-Performance Matrices and Tables (HPTMT)は、データ集約型アプリケーションのための演算子ベースのアーキテクチャである。
HPTMTは、MPI、HPF、NumPy、Pandas、Modin、PyTorch、Spark、RAPIDS(NVIDIA)、OneAPI(Intel)などのシステムにインスパイアされている。
本稿では,データ集約型アプリケーションのための演算子ベースのアーキテクチャであるHPTMTを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-intensive applications impact many domains, and their steadily
increasing size and complexity demands high-performance, highly usable
environments. We integrate a set of ideas developed in various data science and
data engineering frameworks. They employ a set of operators on specific data
abstractions that include vectors, matrices, tensors, graphs, and tables. Our
key concepts are inspired from systems like MPI, HPF (High-Performance
Fortran), NumPy, Pandas, Spark, Modin, PyTorch, TensorFlow, RAPIDS(NVIDIA), and
OneAPI (Intel). Further, it is crucial to support different languages in
everyday use in the Big Data arena, including Python, R, C++, and Java. We note
the importance of Apache Arrow and Parquet for enabling language agnostic high
performance and interoperability. In this paper, we propose High-Performance
Tensors, Matrices and Tables (HPTMT), an operator-based architecture for
data-intensive applications, and identify the fundamental principles needed for
performance and usability success. We illustrate these principles by a
discussion of examples using our software environments, Cylon and Twister2 that
embody HPTMT.
- Abstract(参考訳): データ集約型アプリケーションは多くのドメインに影響を与え、そのサイズと複雑さは着実に増加し、高性能で使用可能な環境を必要とする。
さまざまなデータサイエンスおよびデータエンジニアリングフレームワークで開発された一連のアイデアを統合する。
彼らはベクトル、行列、テンソル、グラフ、テーブルを含む特定のデータ抽象化に演算子セットを採用する。
私たちの重要なコンセプトは、MPI、HPF(High-Performance Fortran)、NumPy、Pandas、Spark、Modin、PyTorch、TensorFlow、RAPIDS(NVIDIA)、OneAPI(Intel)といったシステムにインスパイアされています。
さらに、python、r、c++、javaなど、ビッグデータ分野で日常的に使用されるさまざまな言語をサポートすることも重要です。
言語に依存しないハイパフォーマンスと相互運用性を実現するために、Apache ArrowとParquetが重要であることに留意する。
本稿では,データ集約型アプリケーションのためのオペレータベースのアーキテクチャであるハイパフォーマンステンソル,行列およびテーブル(hptmt)を提案し,パフォーマンスとユーザビリティの成功に必要な基本原理を明らかにする。
我々は、HPTMTを具現化したソフトウェア環境であるCylonとTwister2の例を使って、これらの原則を説明する。
関連論文リスト
- TensorBank: Tensor Lakehouse for Foundation Model Training [1.8811254972035676]
基礎モデルトレーニングのための高次元データのストリーミングと保存は、自然言語を超えた基礎モデルの台頭によって重要な要件となった。
我々は、複雑なリレーショナルクエリに基づいて、Cloud Object Store(COS)からGPUメモリへテンソルをワイヤスピードでストリーミングできるペタバイトスケールテンソルレイクハウスであるBankを紹介した。
このアーキテクチャは、コンピュータビジョン、計算神経科学、生物学的シーケンス分析などの他のユースケースに一般化される。
論文 参考訳(メタデータ) (2023-09-05T10:00:33Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel [19.24542340170026]
PyTorch Fully Sharded Data Parallel (FSDP) を大規模モデルトレーニングのための業界グレードのソリューションとして紹介する。
FSDPはTFLOPSの観点で、ほぼ直線的なスケーラビリティを持つ、はるかに大きなモデルをサポートする。
論文 参考訳(メタデータ) (2023-04-21T23:52:27Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Desbordante: from benchmarking suite to high-performance
science-intensive data profiler (preprint) [36.537985747809245]
Desbordanteは、オープンソースのコードを持つ高性能な科学集約型データプロファイラである。
類似のシステムとは異なり、マルチユーザ環境での産業的応用に重点を置いて構築されている。
効率的で、クラッシュに対して回復力があり、スケーラブルです。
論文 参考訳(メタデータ) (2023-01-14T19:14:51Z) - Tevatron: An Efficient and Flexible Toolkit for Dense Retrieval [60.457378374671656]
Tevatronは、効率、柔軟性、コードの単純さに最適化された高密度な検索ツールキットである。
Tevatronのフレキシブルな設計は、データセット、モデルアーキテクチャ、アクセラレータプラットフォームをまたいで簡単に一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-11T05:47:45Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - HPTMT Parallel Operators for High Performance Data Science & Data
Engineering [0.0]
HPTMTアーキテクチャは、リッチなデータアプリケーションを作成するための一連のデータ構造、演算子、実行モデルを特定する。
本稿では、ディープラーニングとデータエンジニアリングを併用したエンドツーエンドアプリケーションを用いて、このアーキテクチャを詳述し、解説する。
論文 参考訳(メタデータ) (2021-08-13T00:05:43Z) - Data Engineering for HPC with Python [0.0]
データエンジニアリングは、さまざまなデータフォーマット、ストレージ、データ抽出、変換、データ移動を扱う。
データエンジニアリングの1つのゴールは、データを元のデータから、ディープラーニングや機械学習アプリケーションで受け入れられるベクトル/行列/テンソルフォーマットに変換することである。
データを表現および処理するためのテーブル抽象化に基づく分散Python APIを提案する。
論文 参考訳(メタデータ) (2020-10-13T11:53:11Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。