Fugu-MT 論文翻訳(概要): ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with Distributed Stream Processing Frameworks

論文の概要: ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with Distributed Stream Processing Frameworks

arxiv url: http://arxiv.org/abs/2403.04570v1
Date: Thu, 7 Mar 2024 15:06:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 13:46:35.906911
Title: ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with Distributed Stream Processing Frameworks
Title（参考訳）: ShuffleBench: 分散ストリーム処理フレームワークによる大規模データシャッフル運用のためのベンチマーク
Authors: S\"oren Henning, Adriano Vogel, Michael Leichtfried, Otmar Ertl, Rick Rabiser
Abstract要約: 本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。 ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
参考スコア（独自算出の注目度）: 1.4374467687356276
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Distributed stream processing frameworks help building scalable and reliable applications that perform transformations and aggregations on continuous data streams. This paper introduces ShuffleBench, a novel benchmark to evaluate the performance of modern stream processing frameworks. In contrast to other benchmarks, it focuses on use cases where stream processing frameworks are mainly employed for shuffling (i.e., re-distributing) data records to perform state-local aggregations, while the actual aggregation logic is considered as black-box software components. ShuffleBench is inspired by requirements for near real-time analytics of a large cloud observability platform and takes up benchmarking metrics and methods for latency, throughput, and scalability established in the performance engineering research community. Although inspired by a real-world observability use case, it is highly configurable to allow domain-independent evaluations. ShuffleBench comes as a ready-to-use open-source software utilizing existing Kubernetes tooling and providing implementations for four state-of-the-art frameworks. Therefore, we expect ShuffleBench to be a valuable contribution to both industrial practitioners building stream processing applications and researchers working on new stream processing approaches. We complement this paper with an experimental performance evaluation that employs ShuffleBench with various configurations on Flink, Hazelcast, Kafka Streams, and Spark in a cloud-native environment. Our results show that Flink achieves the highest throughput while Hazelcast processes data streams with the lowest latency.
Abstract（参考訳）: 分散ストリーム処理フレームワークは、継続的データストリームで変換と集約を実行するスケーラブルで信頼性の高いアプリケーションの構築を支援する。本稿では,現代的なストリーム処理フレームワークの性能を評価するための新しいベンチマークであるshufflebenchを紹介する。他のベンチマークとは対照的に、ストリーム処理フレームワークが主にシャッフル(すなわち、再配布)データレコードを使用して状態局所的な集約を行うユースケースに焦点を当て、実際の集約ロジックはブラックボックスソフトウェアコンポーネントと見なされる。 ShuffleBenchは、大規模なクラウド可観測性プラットフォームのほぼリアルタイム分析の要件にインスパイアされ、パフォーマンスエンジニアリング研究コミュニティで確立されたレイテンシ、スループット、スケーラビリティのベンチマークメトリクスとメソッドを取り上げている。実世界のオブザーバビリティのユースケースに触発されてはいるが、ドメインに依存しない評価を可能にすることは極めて構成可能である。 ShuffleBenchは、既存のKubernetesツールを活用し、4つの最先端フレームワークの実装を提供するオープンソースソフトウェアとして使える。したがって、ShuffleBenchは、ストリーム処理アプリケーションを構築する産業実践者と、新しいストリーム処理アプローチに取り組んでいる研究者の両方にとって、貴重な貢献になるだろう。本稿では、クラウドネイティブ環境でのFlink、Hazelcast、Kafka Streams、Sparkのさまざまな構成を備えたShuffleBenchを使用した、実験的パフォーマンス評価を補完する。その結果,flinkは最大スループットを達成し,hazelcastは最低レイテンシでデータストリームを処理する。

関連論文リスト

Easy Data Unlearning Bench [53.1304932656586]
アンラーニングアルゴリズムの評価を簡略化する統一型ベンチマークスイートを導入する。セットアップとメトリクスの標準化により、未学習のメソッド間で再現性、拡張性、公正な比較が可能になる。
論文参考訳（メタデータ） (2026-02-18T12:20:32Z)
SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。 SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文参考訳（メタデータ） (2024-10-04T14:52:18Z)
PruningBench: A Comprehensive Benchmark of Structural Pruning [50.23493036025595]
textitPruningBenchと呼ばれる、構造的プルーニングのための最初の包括的なベンチマークを提示する。 PruningBenchは、多様な構造的プルーニング技術の有効性を評価するために、統一的で一貫したフレームワークを使用している。将来の刈り取り方法の実装を容易にするための実装が容易なインターフェースを提供し、その後の研究者が自身の作業をリーダボードに組み込めるようにします。
論文参考訳（メタデータ） (2024-06-18T06:37:26Z)
StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文参考訳（メタデータ） (2024-06-13T02:08:28Z)
Efficient Temporal Action Segmentation via Boundary-aware Query Voting [51.92693641176378]
BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。 BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
論文参考訳（メタデータ） (2024-05-25T00:44:13Z)
A Comprehensive Benchmarking Analysis of Fault Recovery in Stream Processing Frameworks [1.3398445165628463]
本稿では, クラウドネイティブ環境における障害復旧性能, 安定性, 回復時間に関する包括的解析を行う。以上の結果から,Flinkは最も安定しており,最高の障害回復の1つであることが示唆された。 K Kafka Streamsは適切なフォールトリカバリパフォーマンスと安定性を示しているが、イベントレイテンシは高い。
論文参考訳（メタデータ） (2024-04-09T10:49:23Z)
Pathway: a fast and flexible unified stream data processing framework for analytical and Machine Learning applications [7.850979932441607]
Pathwayは新しい統一データ処理フレームワークで、バウンドとアンバウンドのデータストリームの両方でワークロードを実行できる。本稿では,本システムについて述べるとともに,バッチとストリーミングの両コンテキストにおいて,その性能を示すベンチマーク結果を示す。
論文参考訳（メタデータ） (2023-07-12T08:27:37Z)
Benchmarking scalability of stream processing frameworks deployed as microservices in the cloud [0.38073142980732994]
我々は、体系的手法を用いて、そのスケーラビリティに関する5つの最新のストリーム処理フレームワークをベンチマークする。すべてのベンチマークフレームワークは、十分なクラウドリソースがプロビジョニングされている限り、ほぼ線形スケーラビリティを示す。明確な優れたフレームワークはありませんが、ユースケースにおけるフレームワークのランキングです。
論文参考訳（メタデータ） (2023-03-20T13:22:03Z)
CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。 CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文参考訳（メタデータ） (2021-05-10T07:31:59Z)
Ranking and benchmarking framework for sampling algorithms on synthetic data streams [0.0]
ビッグデータ、AI、ストリーミング処理では、複数のソースから大量のデータを処理します。メモリとネットワークの制限のため、分散システム上のデータストリームを処理し、計算とネットワークの負荷を軽減する。概念のドリフトに反応するアルゴリズムを提供し、我々のフレームワークを用いた最先端のアルゴリズムと比較する。
論文参考訳（メタデータ） (2020-06-17T14:25:07Z)
Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文参考訳（メタデータ） (2020-05-21T01:51:35Z)
Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文参考訳（メタデータ） (2020-03-03T15:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。