Fugu-MT 論文翻訳(概要): In-depth Analysis On Parallel Processing Patterns for High-Performance Dataframes

論文の概要: In-depth Analysis On Parallel Processing Patterns for High-Performance Dataframes

arxiv url: http://arxiv.org/abs/2307.01394v1
Date: Mon, 3 Jul 2023 23:11:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 18:46:30.605924
Title: In-depth Analysis On Parallel Processing Patterns for High-Performance Dataframes
Title（参考訳）: 高性能データベースにおける並列処理パターンの詳細な解析
Authors: Niranda Perera, Arup Kumar Sarker, Mills Staylor, Gregor von Laszewski, Kaiying Shan, Supun Kamburugamuve, Chathura Widanage, Vibhatha Abeykoon, Thejaka Amila Kanewela, Geoffrey Fox
Abstract要約: 本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。 ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The Data Science domain has expanded monumentally in both research and industry communities during the past decade, predominantly owing to the Big Data revolution. Artificial Intelligence (AI) and Machine Learning (ML) are bringing more complexities to data engineering applications, which are now integrated into data processing pipelines to process terabytes of data. Typically, a significant amount of time is spent on data preprocessing in these pipelines, and hence improving its e fficiency directly impacts the overall pipeline performance. The community has recently embraced the concept of Dataframes as the de-facto data structure for data representation and manipulation. However, the most widely used serial Dataframes today (R, pandas) experience performance limitations while working on even moderately large data sets. We believe that there is plenty of room for improvement by taking a look at this problem from a high-performance computing point of view. In a prior publication, we presented a set of parallel processing patterns for distributed dataframe operators and the reference runtime implementation, Cylon [1]. In this paper, we are expanding on the initial concept by introducing a cost model for evaluating the said patterns. Furthermore, we evaluate the performance of Cylon on the ORNL Summit supercomputer.
Abstract（参考訳）: Data Scienceドメインは、ビッグデータ革命によって、過去10年間に研究コミュニティと業界コミュニティの両方で目立った拡張を遂げてきた。人工知能(AI)と機械学習(ML)は、データエンジニアリングアプリケーションにさらなる複雑さをもたらし、テラバイトのデータを処理するためにデータ処理パイプラインに統合された。通常、これらのパイプラインでのデータ前処理にかなりの時間が費やされるため、e能率の改善はパイプライン全体のパフォーマンスに直接影響を与える。コミュニティは最近、データ表現と操作のためのデファクトデータ構造としてDataframesの概念を受け入れた。しかし、現在最も広く使われているシリアルデータフレーム(r、pandas)は、中程度の大きなデータセットで作業しながら性能上の制限を経験する。我々は、この問題を高性能コンピューティングの観点から見ていくことで、改善の余地が十分にあると信じている。本稿では,分散データフレーム演算子と参照ランタイム実装であるCylon [1]について,並列処理パターンのセットを提示した。本稿では,そのパターンを評価するためのコストモデルを導入することで,その初期概念を拡大する。さらに,ORNL SummitスーパーコンピュータにおけるCylonの性能評価を行った。

関連論文リスト

MLPrE -- A tool for preprocessing and exploratory data analysis prior to machine learning model construction [0.24629531282150877]
本稿では,機械学習の前処理と探索データ解析,DatarEについて述べる。 DataFramesは処理中にデータを保持し、スケーラビリティを確保するために利用されました。合計69のステージがintorEとして実装され、6つの多様なデータセットを使用して重要なステージをハイライトし、デモした。
論文参考訳（メタデータ） (2025-10-29T17:52:39Z)
KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes [20.75018548918123]
104個の実世界のデータサイエンスパイプラインを手作業でキュレートしたベンチマークであるKRAMABENCHを紹介する。これらのパイプラインは、データ処理におけるAIシステムのエンドツーエンド機能をテストする。以上の結果から,既存のアウト・オブ・ボックスモデルでは,適切なデータサイエンスコード生成タスクを十分に解決できるが,既存のアウト・オブ・ボックスモデルでは不十分であることが示唆された。
論文参考訳（メタデータ） (2025-06-06T21:18:45Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Optimizing VarLiNGAM for Scalable and Efficient Time Series Causal Discovery [5.430532390358285]
因果発見は、データの因果関係を特定するように設計されている。時系列因果発見は、時間的依存と潜在的な時間ラグの影響を考慮する必要があるため、特に困難である。本研究は大規模データセット処理の実現可能性を大幅に改善する。
論文参考訳（メタデータ） (2024-09-09T10:52:58Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文参考訳（メタデータ） (2023-12-09T11:37:07Z)
RINAS: Training with Dataset Shuffling Can Be General and Fast [2.485503195398027]
RINASは、グローバルシャッフルデータセットをロードする際のパフォーマンスボトルネックに対処するデータローディングフレームワークである。 We implement RINAS under the PyTorch framework for common dataset library HuggingFace and TorchVision。実験の結果,RINASは汎用言語モデルトレーニングと視覚モデルトレーニングのスループットを最大59%,視力モデルトレーニングは89%向上した。
論文参考訳（メタデータ） (2023-12-04T21:50:08Z)
Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。本研究では,データ分析エージェントであるData-Copilotを提案する。
論文参考訳（メタデータ） (2023-06-12T16:12:56Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文参考訳（メタデータ） (2022-02-17T14:31:58Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Deep Cellular Recurrent Network for Efficient Analysis of Time-Series Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文参考訳（メタデータ） (2021-01-12T20:08:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。