論文の概要: PerfGen: Automated Performance Benchmark Generation for Big Data Analytics
- arxiv url: http://arxiv.org/abs/2412.04687v1
- Date: Fri, 06 Dec 2024 00:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:13.615969
- Title: PerfGen: Automated Performance Benchmark Generation for Big Data Analytics
- Title(参考訳): PerfGen:ビッグデータ分析のための自動パフォーマンスベンチマーク生成
- Authors: Jiyuan Wang, Jason Teoh, Muhammand Ali Gulza, Qian Zhang, Miryung Kim,
- Abstract要約: 計算スキュー、データスキュー、メモリスキューなど、ビッグデータ分析における性能低下の多くの症状が入力に依存する。
PerfGenはパフォーマンステストのためにインプットを自動的に生成するように設計されている。
PerfGenは、パフォーマンスの症状を誘発するインプットを生成する場合、従来のファジングアプローチと比較して、少なくとも11倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 6.4905318866478625
- License:
- Abstract: Many symptoms of poor performance in big data analytics such as computational skews, data skews, and memory skews are input dependent. However, due to the lack of inputs that can trigger such performance symptoms, it is hard to debug and test big data analytics. We design PerfGen to automatically generate inputs for the purpose of performance testing. PerfGen overcomes three challenges when naively using automated fuzz testing for the purpose of performance testing. First, typical greybox fuzzing relies on coverage as a guidance signal and thus is unlikely to trigger interesting performance behavior. Therefore, PerfGen provides performance monitor templates that a user can extend to serve as a set of guidance metrics for grey-box fuzzing. Second, performance symptoms may occur at an intermediate or later stage of a big data analytics pipeline. Thus, PerfGen uses a phased fuzzing approach. This approach identifies symptom-causing intermediate inputs at an intermediate stage first and then converts them to the inputs at the beginning of the program with a pseudo-inverse function generated by a large language model. Third, PerfGen defines sets of skew-inspired input mutations, which increases the chance of inducing performance problems. We evaluate PerfGen using four case studies. PerfGen achieves at least 11x speedup compared to a traditional fuzzing approach when generating inputs to trigger performance symptoms. Additionally, identifying intermediate inputs first and then converting them to original inputs enables PerfGen to generate such workloads in less than 0.004% of the iterations required by a baseline approach.
- Abstract(参考訳): 計算スキュー、データスキュー、メモリスキューなど、ビッグデータ分析における性能低下の多くの症状が入力に依存する。
しかし、そのようなパフォーマンスの症状を引き起こすインプットが不足しているため、ビッグデータ分析のデバッグとテストは困難である。
私たちはPerfGenを設計し、パフォーマンステストのためにインプットを自動的に生成します。
PerfGenは、パフォーマンステストのために自動ファズテストを使用することで、3つの課題を克服している。
まず、典型的なグレーボックスファジリングは、ガイダンス信号としてカバレッジに依存しているので、興味深いパフォーマンス動作を引き起こすことはありそうにない。
したがって、PerfGenは、グレーボックスファジングのためのガイダンス指標のセットとして、ユーザが拡張可能なパフォーマンスモニタテンプレートを提供する。
第2に、ビッグデータ分析パイプラインの中間または後半にパフォーマンスの症状が発生する可能性がある。
したがって、PerfGenはフェーズドファジッシングアプローチを使用する。
提案手法では, 中間段階における症状を考慮した中間入力をまず同定し, プログラム開始時の入力に変換し, 大規模言語モデルで生成した擬似逆関数を用いる。
第3に、PerfGenはスキューインスパイアされた入力突然変異のセットを定義し、パフォーマンス問題を誘発する可能性を高める。
4つのケーススタディを用いてPerfGenを評価した。
PerfGenは、パフォーマンスの症状を誘発するインプットを生成する場合、従来のファジングアプローチと比較して、少なくとも11倍のスピードアップを達成する。
さらに、中間入力を最初に識別し、それらを元の入力に変換することで、PerfGenはベースラインアプローチに必要なイテレーションの0.004%未満で、そのようなワークロードを生成することができる。
関連論文リスト
- Generator-Based Fuzzers with Type-Based Targeted Mutation [1.4507298892594764]
以前の研究では、カバレッジ誘導型ファジィザは静的解析、テイント解析、制約解法を混合してこの問題に対処していた。
本稿では,Java GBFの文字列検索とともに,型ベースの突然変異を導入する。
ベースラインのGBFツールと比較すると、アプリケーションカバレッジは平均20%改善しており、サードパーティのコードを含めると、より大きく改善されている。
論文 参考訳(メタデータ) (2024-06-04T07:20:13Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Validity-Preserving Delta Debugging via Generator Trace Reduction [14.24086822861706]
GReduceは、削減された有効なテスト入力を出力するジェネレータ上の他の実行を検索する。
GReduceはPersesやT-PDDなど最先端の構文ベースのリデューサを大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-07T07:12:27Z) - Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。
すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。
その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文 参考訳(メタデータ) (2023-11-02T12:01:29Z) - A hybrid feature learning approach based on convolutional kernels for
ATM fault prediction using event-log data [5.859431341476405]
イベントログデータから特徴を抽出するために,畳み込みカーネル(MiniROCKETとHYDRA)に基づく予測モデルを提案する。
提案手法は,実世界の重要な収集データセットに適用される。
このモデルは、ATMのタイムリーなメンテナンスにおいてオペレータをサポートするコンテナベースの意思決定支援システムに統合された。
論文 参考訳(メタデータ) (2023-05-17T08:55:53Z) - High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文 参考訳(メタデータ) (2023-03-15T14:23:07Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Fast Test Input Generation for Finding Deviated Behaviors in Compressed
Deep Neural Network [18.205951607889556]
本稿では,TriggerFinder を用いて,圧縮モデルにおける不規則な動作をトリガーする入力を自動的に識別する手法を提案する。
2つのデータセットを持つ18の圧縮モデル上でTriggerFinderを評価する。
論文 参考訳(メタデータ) (2021-12-06T07:12:49Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。