Fugu-MT 論文翻訳(概要): Evaluating the Overhead of the Performance Profiler Cloudprofiler With MooBench

論文の概要: Evaluating the Overhead of the Performance Profiler Cloudprofiler With MooBench

arxiv url: http://arxiv.org/abs/2411.17413v1
Date: Tue, 26 Nov 2024 13:20:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 14:37:21.49123
Title: Evaluating the Overhead of the Performance Profiler Cloudprofiler With MooBench
Title（参考訳）: MooBenchによるパフォーマンスプロファイラCloudknownrのオーバヘッド評価
Authors: Shinhyung Yang, David Georg Reichelt, Wilhelm Hasselbring,
Abstract要約: 本研究では、ネイティブおよびディスクプロセスを測定するためにC++で実装されたパフォーマンスプロファイラであるCloudknownrのオーバーヘッドを測定する。プロファイラプロセスを目標プロセスの外に配置し、クリティカルパスから書き込みオーバーヘッドを移動させることで、プロファイラのオーバーヘッドを最小限に抑える。非圧縮ハンドラの6.15倍高速である。
参考スコア（独自算出の注目度）: 0.2867517731896504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Performance engineering has become crucial for the cloud-native architecture. This architecture deploys multiple services, with each service representing an orchestration of containerized processes. OpenTelemetry is growing popular in the cloud-native industry for observing the software's behaviour, and Kieker provides the necessary tools to monitor and analyze the performance of target architectures. Observability overhead is an important aspect of performance engineering and MooBench is designed to compare different observability frameworks, including OpenTelemetry and Kieker. In this work, we measure the overhead of Cloudprofiler, a performance profiler implemented in C++ to measure native and JVM processes. It minimizes the profiling overhead by locating the profiler process outside the target process and moving the disk writing overhead off the critical path with buffer blocks and compression threads. Using MooBench, Cloudprofiler's buffered ID handler with the Zstandard lossless data compression ZSTD showed an average execution time of 2.28 microseconds. It is 6.15 times faster than the non-buffered and non-compression handler.
Abstract（参考訳）: クラウドネイティブアーキテクチャでは、パフォーマンスエンジニアリングが重要になっています。このアーキテクチャは複数のサービスをデプロイし、各サービスはコンテナ化されたプロセスのオーケストレーションを表す。 OpenTelemetryは、ソフトウェアの振る舞いを観察するクラウドネイティブ業界で人気を集めており、Keeker氏はターゲットアーキテクチャのパフォーマンスを監視し分析するために必要なツールを提供している。可観測性オーバーヘッドはパフォーマンスエンジニアリングの重要な側面であり、MooBenchはOpenTelemetryやKeekerなど、さまざまな可観測性フレームワークを比較するように設計されている。本研究では、ネイティブおよびJVMプロセスを測定するためにC++で実装されたパフォーマンスプロファイラであるCloudknownrのオーバーヘッドを測定する。プロファイリングのオーバーヘッドを最小限に抑え、プロファイラプロセスをターゲットプロセスの外に配置し、ディスクの書き込みオーバーヘッドをバッファブロックと圧縮スレッドでクリティカルパスから移動させる。 MooBenchを使用することで、Zstandardのロスレスデータ圧縮であるZSTDを使ったCloudknownrのバッファリングIDハンドラは平均実行時間2.28マイクロ秒を示した。非圧縮ハンドラの6.15倍高速である。

関連論文リスト

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。 APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。 APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文参考訳（メタデータ） (2025-02-17T17:59:56Z)
Tracezip: Efficient Distributed Tracing via Trace Compression [26.353398496686854]
分散トレースは、クラウドサービスシステムの監視とテストにおいて、基本的なビルディングブロックとして機能する。ヘッドベースサンプリングは、システムに入ると追跡するリクエストを無差別に選択する。テールベースのサンプリングは、まずすべてのリクエストをキャプチャし、次にエッジケーストレースを選択的に永続化する。トレース圧縮による分散トレースの効率を向上させるため,Tracezipを提案する。
論文参考訳（メタデータ） (2025-02-10T10:13:57Z)
SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。 SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文参考訳（メタデータ） (2024-10-04T14:52:18Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
A Comprehensive Benchmarking Analysis of Fault Recovery in Stream Processing Frameworks [1.3398445165628463]
本稿では, クラウドネイティブ環境における障害復旧性能, 安定性, 回復時間に関する包括的解析を行う。以上の結果から,Flinkは最も安定しており,最高の障害回復の1つであることが示唆された。 K Kafka Streamsは適切なフォールトリカバリパフォーマンスと安定性を示しているが、イベントレイテンシは高い。
論文参考訳（メタデータ） (2024-04-09T10:49:23Z)
ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with Distributed Stream Processing Frameworks [1.4374467687356276]
本稿では、最新のストリーム処理フレームワークの性能を評価するための新しいベンチマークであるShuffleBenchを紹介する。 ShuffleBenchは、大規模なクラウドオブザーバビリティプラットフォームのほぼリアルタイム分析の要件にインスパイアされている。その結果,Herzelcastは低レイテンシでデータストリームを処理するのに対して,Flinkは最高スループットを実現していることがわかった。
論文参考訳（メタデータ） (2024-03-07T15:06:24Z)
Benchmarking scalability of stream processing frameworks deployed as microservices in the cloud [0.38073142980732994]
我々は、体系的手法を用いて、そのスケーラビリティに関する5つの最新のストリーム処理フレームワークをベンチマークする。すべてのベンチマークフレームワークは、十分なクラウドリソースがプロビジョニングされている限り、ほぼ線形スケーラビリティを示す。明確な優れたフレームワークはありませんが、ユースケースにおけるフレームワークのランキングです。
論文参考訳（メタデータ） (2023-03-20T13:22:03Z)
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-09-18T14:33:49Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
Model-Architecture Co-Design for High Performance Temporal GNN Inference on FPGA [5.575293536755127]
実世界のアプリケーションは、リアルタイムストリーミング動的グラフに対して高いパフォーマンスの推論を必要とする。本稿では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。我々は、知識蒸留を用いて単純化されたモデルを訓練し、元のモデルと同じような精度でビザビザビザビザを保証します。
論文参考訳（メタデータ） (2022-03-10T00:24:47Z)
Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-03T21:00:53Z)
ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。 ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。 ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文参考訳（メタデータ） (2021-10-01T16:25:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。