論文の概要: ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with
Distributed Stream Processing Frameworks
- arxiv url: http://arxiv.org/abs/2403.04570v1
- Date: Thu, 7 Mar 2024 15:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:46:35.906911
- Title: ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with
Distributed Stream Processing Frameworks
- Title(参考訳): ShuffleBench: 分散ストリーム処理フレームワークによる大規模データシャッフル運用のためのベンチマーク
- Authors: S\"oren Henning, Adriano Vogel, Michael Leichtfried, Otmar Ertl, Rick
Rabiser
- Abstract要約: 本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。
ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。
その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
- 参考スコア(独自算出の注目度): 1.4374467687356276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed stream processing frameworks help building scalable and reliable
applications that perform transformations and aggregations on continuous data
streams. This paper introduces ShuffleBench, a novel benchmark to evaluate the
performance of modern stream processing frameworks. In contrast to other
benchmarks, it focuses on use cases where stream processing frameworks are
mainly employed for shuffling (i.e., re-distributing) data records to perform
state-local aggregations, while the actual aggregation logic is considered as
black-box software components. ShuffleBench is inspired by requirements for
near real-time analytics of a large cloud observability platform and takes up
benchmarking metrics and methods for latency, throughput, and scalability
established in the performance engineering research community. Although
inspired by a real-world observability use case, it is highly configurable to
allow domain-independent evaluations. ShuffleBench comes as a ready-to-use
open-source software utilizing existing Kubernetes tooling and providing
implementations for four state-of-the-art frameworks. Therefore, we expect
ShuffleBench to be a valuable contribution to both industrial practitioners
building stream processing applications and researchers working on new stream
processing approaches. We complement this paper with an experimental
performance evaluation that employs ShuffleBench with various configurations on
Flink, Hazelcast, Kafka Streams, and Spark in a cloud-native environment. Our
results show that Flink achieves the highest throughput while Hazelcast
processes data streams with the lowest latency.
- Abstract(参考訳): 分散ストリーム処理フレームワークは、継続的データストリームで変換と集約を実行するスケーラブルで信頼性の高いアプリケーションの構築を支援する。
本稿では,現代的なストリーム処理フレームワークの性能を評価するための新しいベンチマークであるshufflebenchを紹介する。
他のベンチマークとは対照的に、ストリーム処理フレームワークが主にシャッフル(すなわち、再配布)データレコードを使用して状態局所的な集約を行うユースケースに焦点を当て、実際の集約ロジックはブラックボックスソフトウェアコンポーネントと見なされる。
ShuffleBenchは、大規模なクラウド可観測性プラットフォームのほぼリアルタイム分析の要件にインスパイアされ、パフォーマンスエンジニアリング研究コミュニティで確立されたレイテンシ、スループット、スケーラビリティのベンチマークメトリクスとメソッドを取り上げている。
実世界のオブザーバビリティのユースケースに触発されてはいるが、ドメインに依存しない評価を可能にすることは極めて構成可能である。
ShuffleBenchは、既存のKubernetesツールを活用し、4つの最先端フレームワークの実装を提供するオープンソースソフトウェアとして使える。
したがって、ShuffleBenchは、ストリーム処理アプリケーションを構築する産業実践者と、新しいストリーム処理アプローチに取り組んでいる研究者の両方にとって、貴重な貢献になるだろう。
本稿では、クラウドネイティブ環境でのFlink、Hazelcast、Kafka Streams、Sparkのさまざまな構成を備えたShuffleBenchを使用した、実験的パフォーマンス評価を補完する。
その結果,flinkは最大スループットを達成し,hazelcastは最低レイテンシでデータストリームを処理する。
関連論文リスト
- SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - PruningBench: A Comprehensive Benchmark of Structural Pruning [50.23493036025595]
textitPruningBenchと呼ばれる、構造的プルーニングのための最初の包括的なベンチマークを提示する。
PruningBenchは、多様な構造的プルーニング技術の有効性を評価するために、統一的で一貫したフレームワークを使用している。
将来の刈り取り方法の実装を容易にするための実装が容易なインターフェースを提供し、その後の研究者が自身の作業をリーダボードに組み込めるようにします。
論文 参考訳(メタデータ) (2024-06-18T06:37:26Z) - StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。
本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-13T02:08:28Z) - A Comprehensive Benchmarking Analysis of Fault Recovery in Stream Processing Frameworks [1.3398445165628463]
本稿では, クラウドネイティブ環境における障害復旧性能, 安定性, 回復時間に関する包括的解析を行う。
以上の結果から,Flinkは最も安定しており,最高の障害回復の1つであることが示唆された。
K Kafka Streamsは適切なフォールトリカバリパフォーマンスと安定性を示しているが、イベントレイテンシは高い。
論文 参考訳(メタデータ) (2024-04-09T10:49:23Z) - Pathway: a fast and flexible unified stream data processing framework
for analytical and Machine Learning applications [7.850979932441607]
Pathwayは新しい統一データ処理フレームワークで、バウンドとアンバウンドのデータストリームの両方でワークロードを実行できる。
本稿では,本システムについて述べるとともに,バッチとストリーミングの両コンテキストにおいて,その性能を示すベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-07-12T08:27:37Z) - Benchmarking scalability of stream processing frameworks deployed as
microservices in the cloud [0.38073142980732994]
我々は、体系的手法を用いて、そのスケーラビリティに関する5つの最新のストリーム処理フレームワークをベンチマークする。
すべてのベンチマークフレームワークは、十分なクラウドリソースがプロビジョニングされている限り、ほぼ線形スケーラビリティを示す。
明確な優れたフレームワークはありませんが、ユースケースにおけるフレームワークのランキングです。
論文 参考訳(メタデータ) (2023-03-20T13:22:03Z) - CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。
CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。
我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文 参考訳(メタデータ) (2021-05-10T07:31:59Z) - Ranking and benchmarking framework for sampling algorithms on synthetic
data streams [0.0]
ビッグデータ、AI、ストリーミング処理では、複数のソースから大量のデータを処理します。
メモリとネットワークの制限のため、分散システム上のデータストリームを処理し、計算とネットワークの負荷を軽減する。
概念のドリフトに反応するアルゴリズムを提供し、我々のフレームワークを用いた最先端のアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-17T14:25:07Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。