論文の概要: Pathway: a fast and flexible unified stream data processing framework
for analytical and Machine Learning applications
- arxiv url: http://arxiv.org/abs/2307.13116v1
- Date: Wed, 12 Jul 2023 08:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-30 04:06:40.451747
- Title: Pathway: a fast and flexible unified stream data processing framework
for analytical and Machine Learning applications
- Title(参考訳): Pathway: 分析および機械学習アプリケーションのための高速で柔軟な統一ストリームデータ処理フレームワーク
- Authors: Michal Bartoszkiewicz, Jan Chorowski, Adrian Kosowski, Jakub Kowalski,
Sergey Kulik, Mateusz Lewandowski, Krzysztof Nowicki, Kamil Piechowiak,
Olivier Ruas, Zuzanna Stamirowska, Przemyslaw Uznanski
- Abstract要約: Pathwayは新しい統一データ処理フレームワークで、バウンドとアンバウンドのデータストリームの両方でワークロードを実行できる。
本稿では,本システムについて述べるとともに,バッチとストリーミングの両コンテキストにおいて,その性能を示すベンチマーク結果を示す。
- 参考スコア(独自算出の注目度): 7.850979932441607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Pathway, a new unified data processing framework that can run
workloads on both bounded and unbounded data streams. The framework was created
with the original motivation of resolving challenges faced when analyzing and
processing data from the physical economy, including streams of data generated
by IoT and enterprise systems. These required rapid reaction while calling for
the application of advanced computation paradigms (machinelearning-powered
analytics, contextual analysis, and other elements of complex event
processing). Pathway is equipped with a Table API tailored for Python and
Python/SQL workflows, and is powered by a distributed incremental dataflow in
Rust. We describe the system and present benchmarking results which demonstrate
its capabilities in both batch and streaming contexts, where it is able to
surpass state-of-the-art industry frameworks in both scenarios. We also discuss
streaming use cases handled by Pathway which cannot be easily resolved with
state-of-the-art industry frameworks, such as streaming iterative graph
algorithms (PageRank, etc.).
- Abstract(参考訳): 我々は、バウンダリデータストリームとアンバウンドデータストリームの両方でワークロードを実行できる、新しい統合データ処理フレームワークであるpathwayを提案する。
このフレームワークは、IoTやエンタープライズシステムによって生成されたデータのストリームを含む物理的な経済からのデータを分析し処理する際に直面する課題を解決するという、元々のモチベーションによって作成された。
これらは、高度な計算パラダイム(機械学習による分析、コンテキスト分析、および複雑なイベント処理の他の要素)の適用を呼びかけながら、迅速な反応を必要とした。
pathはpythonとpython/sqlのワークフロー用にカスタマイズされたテーブルapiを備えており、rust内の分散インクリメンタルデータフローで動作する。
両シナリオで最先端の業界フレームワークを越えられるような,バッチおよびストリーミングの両コンテキストにおいて,その能力を示すベンチマーク結果について述べる。
また、ストリーミング反復グラフアルゴリズム(ページランクなど)のような最先端の業界フレームワークでは容易に解決できない経路によって処理されるストリーミングのユースケースについても論じる。
関連論文リスト
- A Comprehensive Benchmarking Analysis of Fault Recovery in Stream Processing Frameworks [1.3398445165628463]
本稿では, クラウドネイティブ環境における障害復旧性能, 安定性, 回復時間に関する包括的解析を行う。
以上の結果から,Flinkは最も安定しており,最高の障害回復の1つであることが示唆された。
K Kafka Streamsは適切なフォールトリカバリパフォーマンスと安定性を示しているが、イベントレイテンシは高い。
論文 参考訳(メタデータ) (2024-04-09T10:49:23Z) - ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with
Distributed Stream Processing Frameworks [1.4374467687356276]
本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。
ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。
その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
論文 参考訳(メタデータ) (2024-03-07T15:06:24Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Automated Evolutionary Approach for the Design of Composite Machine
Learning Pipelines [48.7576911714538]
提案手法は、複合機械学習パイプラインの設計を自動化することを目的としている。
パイプラインをカスタマイズ可能なグラフベースの構造で設計し、得られた結果を分析して再生する。
このアプローチのソフトウェア実装は、オープンソースフレームワークとして紹介されている。
論文 参考訳(メタデータ) (2021-06-26T23:19:06Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - FENXI: Deep-learning Traffic Analytics at the Edge [69.34903175081284]
本稿では,TPUを利用して複雑な解析を行うシステムであるFENXIを提案する。
FENXIは、さまざまな粒度で動作するオペレーションとトラフィック分析を分離する。
分析の結果,FENXIは限られた資源しか必要とせず,転送ラインレートのトラヒック処理を継続できることがわかった。
論文 参考訳(メタデータ) (2021-05-25T08:02:44Z) - A Query Language for Summarizing and Analyzing Business Process Data [6.952242545832663]
プロセスグラフ(Process Graph)やプロセスグラフ(Process Graph)といった,プロセスデータをグラフとしてモデル化するフレームワークを提案する。
プロセスグラフのクエリ、探索、分析のためのスケーラブルなアーキテクチャを実装しました。
論文 参考訳(メタデータ) (2021-05-23T11:07:53Z) - Ranking and benchmarking framework for sampling algorithms on synthetic
data streams [0.0]
ビッグデータ、AI、ストリーミング処理では、複数のソースから大量のデータを処理します。
メモリとネットワークの制限のため、分散システム上のデータストリームを処理し、計算とネットワークの負荷を軽減する。
概念のドリフトに反応するアルゴリズムを提供し、我々のフレームワークを用いた最先端のアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-17T14:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。