論文の概要: HPTMT Parallel Operators for High Performance Data Science & Data
Engineering
- arxiv url: http://arxiv.org/abs/2108.06001v1
- Date: Fri, 13 Aug 2021 00:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 21:40:54.374067
- Title: HPTMT Parallel Operators for High Performance Data Science & Data
Engineering
- Title(参考訳): 高性能データサイエンス・データエンジニアリングのためのHPTMT並列演算子
- Authors: Vibhatha Abeykoon, Supun Kamburugamuve, Chathura Widanage, Niranda
Perera, Ahmet Uyar, Thejaka Amila Kanewala, Gregor von Laszewski, and
Geoffrey Fox
- Abstract要約: HPTMTアーキテクチャは、リッチなデータアプリケーションを作成するための一連のデータ構造、演算子、実行モデルを特定する。
本稿では、ディープラーニングとデータエンジニアリングを併用したエンドツーエンドアプリケーションを用いて、このアーキテクチャを詳述し、解説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-intensive applications are becoming commonplace in all science
disciplines. They are comprised of a rich set of sub-domains such as data
engineering, deep learning, and machine learning. These applications are built
around efficient data abstractions and operators that suit the applications of
different domains. Often lack of a clear definition of data structures and
operators in the field has led to other implementations that do not work well
together. The HPTMT architecture that we proposed recently, identifies a set of
data structures, operators, and an execution model for creating rich data
applications that links all aspects of data engineering and data science
together efficiently. This paper elaborates and illustrates this architecture
using an end-to-end application with deep learning and data engineering parts
working together.
- Abstract(参考訳): データ集約型アプリケーションは、あらゆる科学分野において一般的になっています。
これらはデータエンジニアリングやディープラーニング、マシンラーニングといった、豊富なサブドメインで構成されています。
これらのアプリケーションは、異なるドメインのアプリケーションに適した効率的なデータ抽象化とオペレータを中心に構築されている。
多くの場合、フィールド内のデータ構造と演算子の明確な定義が欠如しており、他の実装ではうまく動作しない。
我々が最近提案したHPTMTアーキテクチャは、データエンジニアリングとデータサイエンスのすべての側面を効率的に結びつけるリッチなデータアプリケーションを作成するための一連のデータ構造、演算子、実行モデルを特定します。
本稿では、ディープラーニングとデータエンジニアリングを併用したエンドツーエンドアプリケーションを用いて、このアーキテクチャを詳述し、解説する。
関連論文リスト
- DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - Towards an Integrated Performance Framework for Fire Science and Management Workflows [0.0]
本稿では,人工知能と機械学習(AI/ML)による性能評価と最適化手法を提案する。
パフォーマンスデータ収集、予測、最適化を対象とする、関連するAI/MLフレームワークが、ワイルドファイアサイエンスアプリケーションに適用される。
論文 参考訳(メタデータ) (2024-07-30T22:37:25Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Imitation Learning Datasets: A Toolkit For Creating Datasets, Training
Agents and Benchmarking [0.9944647907864256]
模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。
多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされる。
この作業は、Imitation Learningデータセットを作成することで、これらの問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-03-01T14:18:46Z) - Architecting Data-Intensive Applications : From Data Architecture Design
to Its Quality Assurance [0.0]
データアーキテクチャは、ビジネスニーズを満たすためのデータの記述、収集、保存、処理、分析において重要である。
各種の業界領域において,DATを5つ以上のケースで評価し,その例外的な適応性と有効性を示した。
論文 参考訳(メタデータ) (2024-01-22T14:58:54Z) - DAT: Data Architecture Modeling Tool for Data-Driven Applications [1.6037279419318131]
データアーキテクチャ(DA)は、ビジネスニーズを満たすためのデータの記述、収集、保存、処理、分析に焦点を当てている。
DATは、データアーキテクト、データエンジニア、その他のステークホルダーが、システムを通してデータがどのように流れるかを記述することを可能にする、モデル駆動のエンジニアリングツールです。
論文 参考訳(メタデータ) (2023-06-21T11:24:59Z) - KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science [4.120803087965204]
本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその接続を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。
この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2023-03-03T20:31:04Z) - A Multi-Format Transfer Learning Model for Event Argument Extraction via
Variational Information Bottleneck [68.61583160269664]
イベント引数抽出(EAE)は、テキストから所定の役割を持つ引数を抽出することを目的としている。
変動情報のボトルネックを考慮したマルチフォーマット変換学習モデルを提案する。
3つのベンチマークデータセットに対して広範な実験を行い、EAE上での新たな最先端性能を得る。
論文 参考訳(メタデータ) (2022-08-27T13:52:01Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - MetaPerturb: Transferable Regularizer for Heterogeneous Tasks and
Architectures [61.73533544385352]
本稿ではメタパーターブ(MetaPerturb)というトランスファー可能な摂動モデルを提案する。
MetaPerturbは、レイヤやタスクにまたがる多様な分散を訓練したセット関数であるため、異種タスクやアーキテクチャを一般化することができる。
論文 参考訳(メタデータ) (2020-06-13T02:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。