論文の概要: ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with
Distributed Stream Processing Frameworks
- arxiv url: http://arxiv.org/abs/2403.04570v1
- Date: Thu, 7 Mar 2024 15:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:46:35.906911
- Title: ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with
Distributed Stream Processing Frameworks
- Title(参考訳): ShuffleBench: 分散ストリーム処理フレームワークによる大規模データシャッフル運用のためのベンチマーク
- Authors: S\"oren Henning, Adriano Vogel, Michael Leichtfried, Otmar Ertl, Rick
Rabiser
- Abstract要約: 本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。
ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。
その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
- 参考スコア(独自算出の注目度): 1.4374467687356276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed stream processing frameworks help building scalable and reliable
applications that perform transformations and aggregations on continuous data
streams. This paper introduces ShuffleBench, a novel benchmark to evaluate the
performance of modern stream processing frameworks. In contrast to other
benchmarks, it focuses on use cases where stream processing frameworks are
mainly employed for shuffling (i.e., re-distributing) data records to perform
state-local aggregations, while the actual aggregation logic is considered as
black-box software components. ShuffleBench is inspired by requirements for
near real-time analytics of a large cloud observability platform and takes up
benchmarking metrics and methods for latency, throughput, and scalability
established in the performance engineering research community. Although
inspired by a real-world observability use case, it is highly configurable to
allow domain-independent evaluations. ShuffleBench comes as a ready-to-use
open-source software utilizing existing Kubernetes tooling and providing
implementations for four state-of-the-art frameworks. Therefore, we expect
ShuffleBench to be a valuable contribution to both industrial practitioners
building stream processing applications and researchers working on new stream
processing approaches. We complement this paper with an experimental
performance evaluation that employs ShuffleBench with various configurations on
Flink, Hazelcast, Kafka Streams, and Spark in a cloud-native environment. Our
results show that Flink achieves the highest throughput while Hazelcast
processes data streams with the lowest latency.
- Abstract(参考訳): 分散ストリーム処理フレームワークは、継続的データストリームで変換と集約を実行するスケーラブルで信頼性の高いアプリケーションの構築を支援する。
本稿では,現代的なストリーム処理フレームワークの性能を評価するための新しいベンチマークであるshufflebenchを紹介する。
他のベンチマークとは対照的に、ストリーム処理フレームワークが主にシャッフル(すなわち、再配布)データレコードを使用して状態局所的な集約を行うユースケースに焦点を当て、実際の集約ロジックはブラックボックスソフトウェアコンポーネントと見なされる。
ShuffleBenchは、大規模なクラウド可観測性プラットフォームのほぼリアルタイム分析の要件にインスパイアされ、パフォーマンスエンジニアリング研究コミュニティで確立されたレイテンシ、スループット、スケーラビリティのベンチマークメトリクスとメソッドを取り上げている。
実世界のオブザーバビリティのユースケースに触発されてはいるが、ドメインに依存しない評価を可能にすることは極めて構成可能である。
ShuffleBenchは、既存のKubernetesツールを活用し、4つの最先端フレームワークの実装を提供するオープンソースソフトウェアとして使える。
したがって、ShuffleBenchは、ストリーム処理アプリケーションを構築する産業実践者と、新しいストリーム処理アプローチに取り組んでいる研究者の両方にとって、貴重な貢献になるだろう。
本稿では、クラウドネイティブ環境でのFlink、Hazelcast、Kafka Streams、Sparkのさまざまな構成を備えたShuffleBenchを使用した、実験的パフォーマンス評価を補完する。
その結果,flinkは最大スループットを達成し,hazelcastは最低レイテンシでデータストリームを処理する。
関連論文リスト
- Pathway: a fast and flexible unified stream data processing framework
for analytical and Machine Learning applications [7.850979932441607]
Pathwayは新しい統一データ処理フレームワークで、バウンドとアンバウンドのデータストリームの両方でワークロードを実行できる。
本稿では,本システムについて述べるとともに,バッチとストリーミングの両コンテキストにおいて,その性能を示すベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-07-12T08:27:37Z) - Benchmarking scalability of stream processing frameworks deployed as
microservices in the cloud [0.38073142980732994]
我々は、体系的手法を用いて、そのスケーラビリティに関する5つの最新のストリーム処理フレームワークをベンチマークする。
すべてのベンチマークフレームワークは、十分なクラウドリソースがプロビジョニングされている限り、ほぼ線形スケーラビリティを示す。
明確な優れたフレームワークはありませんが、ユースケースにおけるフレームワークのランキングです。
論文 参考訳(メタデータ) (2023-03-20T13:22:03Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Sampling Streaming Data with Parallel Vector Quantization -- PVQ [0.0]
本稿では,データストリームのクラス不均衡を大幅に低減するベクトル量子化に基づくサンプリング手法を提案する。
並列処理、バッチ処理、ランダムにサンプルを選択するモデルを構築しました。
本手法により,データストリームの事前処理により,分類モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2022-10-04T17:59:44Z) - Improving the performance of bagging ensembles for data streams through
mini-batching [9.418151228755834]
機械学習アプリケーションは、データが連続データストリームの形式で収集される動的な環境に対処する必要がある。
ストリーム処理アルゴリズムには、計算資源とデータ進化への適応性に関する追加の要件がある。
本稿では,マルチコア環境におけるストリームマイニングのための複数のアンサンブルアルゴリズムのメモリアクセス局所性と性能を向上するミニバッチ方式を提案する。
論文 参考訳(メタデータ) (2021-12-18T03:44:07Z) - Cluster-and-Conquer: A Framework For Time-Series Forecasting [94.63501563413725]
本稿では,高次元時系列データを予測するための3段階フレームワークを提案する。
当社のフレームワークは非常に汎用的で,各ステップで時系列予測やクラスタリングが利用可能です。
単純な線形自己回帰モデルでインスタンス化されると、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-10-26T20:41:19Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。
CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。
我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文 参考訳(メタデータ) (2021-05-10T07:31:59Z) - Ranking and benchmarking framework for sampling algorithms on synthetic
data streams [0.0]
ビッグデータ、AI、ストリーミング処理では、複数のソースから大量のデータを処理します。
メモリとネットワークの制限のため、分散システム上のデータストリームを処理し、計算とネットワークの負荷を軽減する。
概念のドリフトに反応するアルゴリズムを提供し、我々のフレームワークを用いた最先端のアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-17T14:25:07Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。