論文の概要: A Comprehensive Benchmarking Analysis of Fault Recovery in Stream Processing Frameworks
- arxiv url: http://arxiv.org/abs/2404.06203v3
- Date: Wed, 29 May 2024 06:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 10:56:57.405868
- Title: A Comprehensive Benchmarking Analysis of Fault Recovery in Stream Processing Frameworks
- Title(参考訳): ストリーム処理フレームワークにおける異常回復の総合ベンチマーク解析
- Authors: Adriano Vogel, Sören Henning, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser,
- Abstract要約: 本稿では, クラウドネイティブ環境における障害復旧性能, 安定性, 回復時間に関する包括的解析を行う。
以上の結果から,Flinkは最も安定しており,最高の障害回復の1つであることが示唆された。
K Kafka Streamsは適切なフォールトリカバリパフォーマンスと安定性を示しているが、イベントレイテンシは高い。
- 参考スコア(独自算出の注目度): 1.3398445165628463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, several software systems rely on stream processing architectures to deliver scalable performance and handle large volumes of data in near real-time. Stream processing frameworks facilitate scalable computing by distributing the application's execution across multiple machines. Despite performance being extensively studied, the measurement of fault tolerance-a key feature offered by stream processing frameworks-has still not been measured properly with updated and comprehensive testbeds. Moreover, the impact that fault recovery can have on performance is mostly ignored. This paper provides a comprehensive analysis of fault recovery performance, stability, and recovery time in a cloud-native environment with modern open-source frameworks, namely Flink, Kafka Streams, and Spark Structured Streaming. Our benchmarking analysis is inspired by chaos engineering to inject failures. Generally, our results indicate that much has changed compared to previous studies on fault recovery in distributed stream processing. In particular, the results indicate that Flink is the most stable and has one of the best fault recovery. Moreover, Kafka Streams shows performance instabilities after failures, which is due to its current rebalancing strategy that can be suboptimal in terms of load balancing. Spark Structured Streaming shows suitable fault recovery performance and stability, but with higher event latency. Our study intends to (i) help industry practitioners in choosing the most suitable stream processing framework for efficient and reliable executions of data-intensive applications; (ii) support researchers in applying and extending our research method as well as our benchmark; (iii) identify, prevent, and assist in solving potential issues in production deployments.
- Abstract(参考訳): 現在、いくつかのソフトウェアシステムは、スケーラブルなパフォーマンスを提供し、ほぼリアルタイムで大量のデータを処理するために、ストリーム処理アーキテクチャに依存している。
ストリーム処理フレームワークは、アプリケーションの実行を複数のマシンに分散することで、スケーラブルなコンピューティングを容易にする。
性能は広く研究されているが、ストリーム処理フレームワークが提供する重要な特徴である耐障害性の測定は、更新された総合的なテストベッドでは、まだ適切に測定されていない。
さらに、障害復旧がパフォーマンスに与える影響はほとんど無視されます。
本稿では、Flink、Kafka Streams、Spark Structured Streamingといった最新のオープンソースフレームワークを備えたクラウドネイティブ環境での障害復旧性能、安定性、回復時間に関する包括的な分析を提供する。
私たちのベンチマーク分析は、カオスエンジニアリングにインスパイアされて、障害を注入しています。
以上の結果から,従来の分散ストリーム処理における障害回復研究と比較して,大きな変化が見られた。
特に、結果は、Flinkが最も安定しており、最高の障害回復の1つを持っていることを示している。
さらに、Kafka Streamsは障害後のパフォーマンスの不安定さを示している。
Spark Structured Streamingは、適切なフォールトリカバリパフォーマンスと安定性を示しているが、イベントレイテンシが高い。
私たちの研究は
i)データ集約型アプリケーションの効率的かつ信頼性の高い実行に最適なストリーム処理フレームワークを選択することを支援する。
二 研究者が研究方法及びベンチマークの適用及び拡張を支援すること。
3)本番デプロイメントにおける潜在的な問題の特定、防止、支援。
関連論文リスト
- DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Early Detection of Performance Regressions by Bridging Local Performance Data and Architectural Models [12.581051275141537]
ソフトウェア開発では、開発者は既存の問題に対処したり、新機能を実装したりするために、ソフトウェアに多くの修正を加えることが多い。
新しいソフトウェアリリースのパフォーマンスが低下しないことを保証するため、既存のプラクティスはシステムレベルのパフォーマンステストに依存している。
本稿では,コンポーネントレベルのテストとシステムレベルのアーキテクチャモデルによって生成された局所的な性能データをブリッジすることで,性能の劣化を早期に検出する手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:33:20Z) - High-level Stream Processing: A Complementary Analysis of Fault Recovery [1.3398445165628463]
当社では,大規模なクラウド可観測性プラットフォームのほぼリアルタイム分析の要件に触発された,ロバストなデプロイメントセットアップに重点を置いています。
その結果,障害回復と性能向上の可能性が示唆された。
大規模産業のセットアップには、透過的な構成チューニングのための新しい抽象化も必要である。
論文 参考訳(メタデータ) (2024-05-13T16:48:57Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with
Distributed Stream Processing Frameworks [1.4374467687356276]
本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。
ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。
その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
論文 参考訳(メタデータ) (2024-03-07T15:06:24Z) - Pathway: a fast and flexible unified stream data processing framework
for analytical and Machine Learning applications [7.850979932441607]
Pathwayは新しい統一データ処理フレームワークで、バウンドとアンバウンドのデータストリームの両方でワークロードを実行できる。
本稿では,本システムについて述べるとともに,バッチとストリーミングの両コンテキストにおいて,その性能を示すベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-07-12T08:27:37Z) - FuzzyFlow: Leveraging Dataflow To Find and Squash Program Optimization
Bugs [92.47146416628965]
FuzzyFlowはプログラム最適化をテストするために設計されたフォールトローカライゼーションとテストケース抽出フレームワークである。
我々は、データフロープログラム表現を活用して、完全に再現可能なシステム状態と最適化のエリア・オブ・エフェクトをキャプチャする。
テスト時間を削減するため,テスト入力を最小限に抑えるアルゴリズムを設計し,再計算のためのメモリ交換を行う。
論文 参考訳(メタデータ) (2023-06-28T13:00:17Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。